Очередная попытка сделать
универсальный атакующий фреймворк для LLM.
В принципе, устройство у всех одинаковое. Берем словари известных атак и конструируем новые промпты по некоторым правилам. Вот, например:
"В основе нашей структуры лежит широкая, основанная на политике таксономия категорий запросов высокого риска, включая насилие, хакерство, мошенничество, финансовые преступления, разжигание ненависти, нарушения конфиденциальности и многое другое. Каждая категория представлена подсказками, полученными как из общедоступных наборов данных, например, AdvBench, JailbreakBench, так и из проверенных экспертами синтетических примеров.
Для враждебного зондирования мы используем следующие основные методы:
- Враждебные суффиксы: добавление компактной последовательности оптимизированных токенов или фраз к входной подсказке, которая
систематически изменяет поведение модели при завершении запроса, чтобы получить определенные результаты.
- Ролевая игра: представление запросов в виде вымышленного, гипотетического, или сценария, основанного на личности, чтобы побудить модель принять
поведение или выдать результаты, которые в противном случае были бы ограничены.
- Убеждение: Использование эмоциональных, социальных или авторитетных сигналов в запросе — таких как апелляции к экспертным знаниям, срочности или свидетельствам коллег — для того, чтобы склонить модель к выдаче более покладистых или разрешительных результатов.
- Обфускация: Преобразование или сокрытие намерения запроса с помощью кодирования, нетипичной орфографии, перевода или других поверхностных искажений для обхода детекторов, основанных на шаблонах.
- Многошаговое построение структуры запроса: Разбиение целевого запроса на последовательность промежуточных запросов или задач таким образом, что каждый шаг по отдельности является безопасным, но вся цепочка в целом дает запрещенный результат.
- Предварительная подготовка в контексте: Предоставление выбранных примеров в запросе, которые неявно учат модель выдавать целевой тип (небезопасного) ответа.
- Агрессивная токенизация: Агрессивная токенизация вредоносной строки для обхода ограничений безопасности и выравнивания моделей LLM.
Каждый запрос систематически сопоставляется с каждым методом атаки, генерируя детализированную сетку оценок действий противника. Наша структура разработана с учетом масштабируемости и расширяемости. Новые категории запросов и дополнительные методы исследования могут быть легко интегрированы, что позволяет постоянно адаптироваться к возникающим рискам и методам атак.
Вот схожие работы и похожий код
См. также другие публикации, посвященные LLM