Wednesday, November 27, 2024

Проклятые суффиксы

Хотя большие языковые модели (LLM) обычно выровнены, они остаются уязвимыми для взлома либо через тщательно продуманные подсказки на естественном языке, либо, что интересно, через бессмысленные состязательные суффиксы. Однако, бессмысленные токены получили относительно меньше внимания, несмотря на их успех в атаке на выровненные LLM. Недавняя работа AmpleGCG (Ляо и Сан, 2024) демонстрирует, что генеративная модель может быстро создавать многочисленные настраиваемые бессмысленные состязательные суффиксы для любого вредоносного запроса, выявляя ряд пробелов в выравнивании в языковых пространствах вне распределения (OOD). Чтобы привлечь больше внимания к этой области, мы представляем AmpleGCG-Plus, улучшенную версию, которая достигает лучшей производительности за меньшее количество попыток. С помощью серии исследовательских экспериментов мы определяем несколько стратегий обучения для улучшения обучения бессмысленным суффиксам. Наши результаты, проверенные в условиях строгой оценки, показывают, что он превосходит AmpleGCG как на моделях с открытым весом, так и на моделях с закрытым исходным кодом, достигая увеличения коэффициента успешности атак (ASR) до 17% в режиме белого ящика против Llama-2-7B-chat и более чем утроения ASR в режиме черного ящика против GPT-4. В частности, AmpleGCG-Plus делает джейлбрейк новой серии моделей GPT-4o с той же скоростью, что и GPT4, и обнаруживает уязвимости против недавно предложенной защиты с помощью автоматических выключателей. Мы публично выпускаем AmpleGCG-Plus вместе с нашими собранными наборами данных для обучения. Отсюда: AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts https://arxiv.org/pdf/2410.22143

Как добавить бессмысленные суффиксы типа “\)>|}{+Jahrhundert”,/\] parse”, чтобы джейлбрекнуть LLM.

No comments: