Monday, October 27, 2025

Атака атак

Как оценить надежность защиты, основанной на языковых моделях? Текущие защиты от джейлбрейков и инъекций подсказок (которые направлены на то, чтобы помешать злоумышленнику извлечь вредоносные знания или удалённо запустить вредоносные действия соответственно) обычно оцениваются либо по статическому набору вредоносных строк атаки, либо против вычислительно слабых методов оптимизации, которые не были разработаны с учётом защиты. Мы утверждаем, что этот процесс оценки несовершенен. Вместо этого нам следует оценивать защиту от адаптивных злоумышленников, которые явно изменяют свою стратегию атаки, чтобы противостоять конструкции защиты, тратя при этом значительные ресурсы на оптимизацию своей цели. Систематически настраивая и масштабируя общие методы оптимизации — градиентный спуск, обучение с подкреплением, случайный поиск и исследование под руководством человека — мы обошли 12 последних защит (основанных на разнообразном наборе методов) с показателем успешности атак выше 90% для большинства; что важно, большинство защит изначально сообщали о почти нулевом показателе успешности атак. Мы считаем, что будущая работа по защите должна учитывать более сильные атаки, подобные тем,которые мы описываем, чтобы делать надежные и убедительные заявления об устойчивости. - The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections

Композиционная атака на LLM.

P.S. См. также другие публикации, посвященные LLM

No comments: