См. также другие публикации, посвященные LLM
AbavaNet technical corner
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Tuesday, March 17, 2026
LLM в атаке
Monday, March 16, 2026
MCP secure
См. также другие публикации, посвященные MCP
Sunday, March 15, 2026
Saturday, March 14, 2026
Зеленый щит
См. также другие публикации, посвященные LLM
Friday, March 13, 2026
Универсальный состязательный патч
См. также другие публикации по теме физические атаки
Thursday, March 12, 2026
Wednesday, March 11, 2026
Плохому не научит?
Универсальные атаки на LLM
Для враждебного зондирования мы используем следующие основные методы:
- Враждебные суффиксы: добавление компактной последовательности оптимизированных токенов или фраз к входной подсказке, которая систематически изменяет поведение модели при завершении запроса, чтобы получить определенные результаты.
- Ролевая игра: представление запросов в виде вымышленного, гипотетического, или сценария, основанного на личности, чтобы побудить модель принять поведение или выдать результаты, которые в противном случае были бы ограничены.
- Убеждение: Использование эмоциональных, социальных или авторитетных сигналов в запросе — таких как апелляции к экспертным знаниям, срочности или свидетельствам коллег — для того, чтобы склонить модель к выдаче более покладистых или разрешительных результатов.
- Обфускация: Преобразование или сокрытие намерения запроса с помощью кодирования, нетипичной орфографии, перевода или других поверхностных искажений для обхода детекторов, основанных на шаблонах.
- Многошаговое построение структуры запроса: Разбиение целевого запроса на последовательность промежуточных запросов или задач таким образом, что каждый шаг по отдельности является безопасным, но вся цепочка в целом дает запрещенный результат.
- Предварительная подготовка в контексте: Предоставление выбранных примеров в запросе, которые неявно учат модель выдавать целевой тип (небезопасного) ответа.
- Агрессивная токенизация: Агрессивная токенизация вредоносной строки для обхода ограничений безопасности и выравнивания моделей LLM.
Каждый запрос систематически сопоставляется с каждым методом атаки, генерируя детализированную сетку оценок действий противника. Наша структура разработана с учетом масштабируемости и расширяемости. Новые категории запросов и дополнительные методы исследования могут быть легко интегрированы, что позволяет постоянно адаптироваться к возникающим рискам и методам атак.
Вот схожие работы и похожий код
См. также другие публикации, посвященные LLM
Tuesday, March 10, 2026
Безопасность IoT
См. также другие публикации по теме IoT
Monday, March 09, 2026
MCP - щит
См. другие публикации, посвященные MCP
Автоматизация атак на ИИ-агентов
Sunday, March 08, 2026
Быстрое переобучение
Очень интересно - это быстрая (за один проход) кастомизация LLM
См. также другие публикации, посвященные LLM
Saturday, March 07, 2026
Атаки губки для LLM
См. также другие публикации, посвященные LLM
Friday, March 06, 2026
Глубокое обучение в детекции атак на LLM
См. также другие публикации, посвященные LLM
Thursday, March 05, 2026
Агенты и безопасность - совместимы ли эти понятия?
См. также другие публикации, посвященные агентам
Wednesday, March 04, 2026
Детекция косвенных инъекций подсказок
См. также другие публикации, посвященные LLM
Tuesday, March 03, 2026
Конференция "Искусственный интеллект: практическое приложение, вопросы доверия и информационной безопасности" 2026
Пленарное заседание. РАЗВИТИЕ ИИ В ОТРАСЛЯХ И РЕГИОНАХ. ПРОГНОЗЫ И ПЕРСПЕКТИВЫ
Евгений Хасин, Минцифры РФ: Искусственный интеллект. Вопросы доверия и безопасности
Василий Елистратов, Управление Президента РФ по государственной политике в сфере оборонно-промышленного комплекса: Применение технологий искусственного интеллекта в интересах обеспечения обороноспособности страны
Эдуард Шантаев, ФГАУ "ЦИТ": Развитие и перспективы внедрения в промышленность передовых технологий ИИ
Евгений Бурнаев, Сколтех: ИИ под контролем: риски в агентных системах и методы их управления
Вячеслав Береснев, Ассоциация лабораторий по развитию искусственного интеллекта: Проблема доверия в рынке ИИ. Методы решения
Секция. Применение искусственного интеллекта в различных секторах экономики
Евгений Осадчук, АНО "Цифровая экономика": Тренды применения ИИ в отраслях
Андрей Королев, Госкорпорация "Росатом": Об опыте использования искусственного интеллекта (ИИ) в корпорации Росатом
Дмитрий Вандышев, СберТех: Комплексная защита AI в СберТехе
Алексей Парфентьев, Сёрчинформ: Технологии ИИ для защиты конфиденциальной информации
Владислав Тушканов, Лаборатория Касперского: ИИ в SOC: желания и возможности
Дмитрий Узлов, Мобиус Безопасность: ИИ как серая зона ИБ: по секрету всему свету
Пётр Метёлкин, ФГУП "ЗащитаИнфоТранс": Искусственный интеллект в отрасли транспорта и логистики. Актуальные вызовы и возможности
Алексей Титов, ГК ФСК: Проектирование цифровых решений с ИИ: подходы и практика
Алексей Остроушко, Сеть клиник "Будь здоров": Практический опыт использования ИИ в сети клиник Будь Здоров
Круглый стол. ИИ-разработка сегодня: требования, стандарты, риски, вопросы безопасности
Евгений Бурнаев, Сколтех: Инженерный ИИ: интеллектуальная автоматизация сложных циклов проектирования и управления инженерными системами
Сергей Денисов, Альфа-Банк: Автономные агенты и автоматизация бизнес-процессов
Евгений Колесников, Яндекс: Создание кодового ассистента
Михаил Куляскин, X5 Tech: От слов к данным: строим Text2SQL ассистента для бизнеса
Алексей Щербаков, СберТех: "Свой Copilot" — свои уязвимости: почему локальная LLM для разработки не панацея безопасности
Оценка рисков для агентов
См. также другие публикации, посвященные агентам

