AbavaNet technical corner
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Wednesday, March 18, 2026
Tuesday, March 17, 2026
LLM в атаке
См. также другие публикации, посвященные LLM
Monday, March 16, 2026
MCP secure
См. также другие публикации, посвященные MCP
Sunday, March 15, 2026
Saturday, March 14, 2026
Зеленый щит
См. также другие публикации, посвященные LLM
Friday, March 13, 2026
Универсальный состязательный патч
См. также другие публикации по теме физические атаки
Thursday, March 12, 2026
Wednesday, March 11, 2026
Плохому не научит?
Универсальные атаки на LLM
Для враждебного зондирования мы используем следующие основные методы:
- Враждебные суффиксы: добавление компактной последовательности оптимизированных токенов или фраз к входной подсказке, которая систематически изменяет поведение модели при завершении запроса, чтобы получить определенные результаты.
- Ролевая игра: представление запросов в виде вымышленного, гипотетического, или сценария, основанного на личности, чтобы побудить модель принять поведение или выдать результаты, которые в противном случае были бы ограничены.
- Убеждение: Использование эмоциональных, социальных или авторитетных сигналов в запросе — таких как апелляции к экспертным знаниям, срочности или свидетельствам коллег — для того, чтобы склонить модель к выдаче более покладистых или разрешительных результатов.
- Обфускация: Преобразование или сокрытие намерения запроса с помощью кодирования, нетипичной орфографии, перевода или других поверхностных искажений для обхода детекторов, основанных на шаблонах.
- Многошаговое построение структуры запроса: Разбиение целевого запроса на последовательность промежуточных запросов или задач таким образом, что каждый шаг по отдельности является безопасным, но вся цепочка в целом дает запрещенный результат.
- Предварительная подготовка в контексте: Предоставление выбранных примеров в запросе, которые неявно учат модель выдавать целевой тип (небезопасного) ответа.
- Агрессивная токенизация: Агрессивная токенизация вредоносной строки для обхода ограничений безопасности и выравнивания моделей LLM.
Каждый запрос систематически сопоставляется с каждым методом атаки, генерируя детализированную сетку оценок действий противника. Наша структура разработана с учетом масштабируемости и расширяемости. Новые категории запросов и дополнительные методы исследования могут быть легко интегрированы, что позволяет постоянно адаптироваться к возникающим рискам и методам атак.
Вот схожие работы и похожий код
См. также другие публикации, посвященные LLM
Tuesday, March 10, 2026
Безопасность IoT
См. также другие публикации по теме IoT
Monday, March 09, 2026
MCP - щит
См. другие публикации, посвященные MCP
Автоматизация атак на ИИ-агентов
Sunday, March 08, 2026
Быстрое переобучение
Очень интересно - это быстрая (за один проход) кастомизация LLM
См. также другие публикации, посвященные LLM
Saturday, March 07, 2026
Атаки губки для LLM
См. также другие публикации, посвященные LLM
Friday, March 06, 2026
Глубокое обучение в детекции атак на LLM
См. также другие публикации, посвященные LLM
Thursday, March 05, 2026
Агенты и безопасность - совместимы ли эти понятия?
См. также другие публикации, посвященные агентам
Wednesday, March 04, 2026
Детекция косвенных инъекций подсказок
См. также другие публикации, посвященные LLM

