Wednesday, March 11, 2026

Универсальные атаки на LLM

Очередняа попытка сделать универсальный атакующий фреймворк для LLM. В принципе, устройство у всех одинаковое. Берем словари известных атак и конструируем новые промпты по некоторым правилам. Вот, например: "В основе нашей структуры лежит широкая, основанная на политике таксономия категорий запросов высокого риска, включая насилие, хакерство, мошенничество, финансовые преступления, разжигание ненависти, нарушения конфиденциальности и многое другое. Каждая категория представлена подсказками, полученными как из общедоступных наборов данных, например, AdvBench, JailbreakBench, так и из проверенных экспертами синтетических примеров.
Для враждебного зондирования мы используем следующие основные методы:
  • Враждебные суффиксы: добавление компактной последовательности оптимизированных токенов или фраз к входной подсказке, которая систематически изменяет поведение модели при завершении запроса, чтобы получить определенные результаты.
  • Ролевая игра: представление запросов в виде вымышленного, гипотетического, или сценария, основанного на личности, чтобы побудить модель принять поведение или выдать результаты, которые в противном случае были бы ограничены.
  • Убеждение: Использование эмоциональных, социальных или авторитетных сигналов в запросе — таких как апелляции к экспертным знаниям, срочности или свидетельствам коллег — для того, чтобы склонить модель к выдаче более покладистых или разрешительных результатов.
  • Обфускация: Преобразование или сокрытие намерения запроса с помощью кодирования, нетипичной орфографии, перевода или других поверхностных искажений для обхода детекторов, основанных на шаблонах.
  • Многошаговое построение структуры запроса: Разбиение целевого запроса на последовательность промежуточных запросов или задач таким образом, что каждый шаг по отдельности является безопасным, но вся цепочка в целом дает запрещенный результат.
  • Предварительная подготовка в контексте: Предоставление выбранных примеров в запросе, которые неявно учат модель выдавать целевой тип (небезопасного) ответа.
  • Агрессивная токенизация: Агрессивная токенизация вредоносной строки для обхода ограничений безопасности и выравнивания моделей LLM.

Каждый запрос систематически сопоставляется с каждым методом атаки, генерируя детализированную сетку оценок действий противника. Наша структура разработана с учетом масштабируемости и расширяемости. Новые категории запросов и дополнительные методы исследования могут быть легко интегрированы, что позволяет постоянно адаптироваться к возникающим рискам и методам атак.

Вот схожие работы и похожий код

См. также другие публикации, посвященные LLM

No comments: