Monday, January 19, 2026

Адаптивные атаки

Как следует оценивать надежность защиты языковых моделей? Существующие средства защиты от взлома и внедрения подсказок (которые направлены на предотвращение получения злоумышленником вредоносных знаний или удаленного запуска вредоносных действий соответственно) обычно оцениваются либо на статическом наборе вредоносных строк атаки, либо на вычислительно слабых методах оптимизации, которые не были разработаны с учетом цели защиты. Мы утверждаем, что этот процесс оценки ошибочен. Вместо этого следует оценивать средства защиты от адаптивных злоумышленников, которые явно изменяют свою стратегию атаки, чтобы противостоять конструкции защиты, одновременно затрачивая значительные ресурсы на оптимизацию своей цели. Путем систематической настройки и масштабирования общих методов оптимизации — градиентного спуска, обучения с подкреплением, случайного поиска и исследования под руководством человека — мы обходим 12 недавних средств защиты (основанных на разнообразном наборе методов) с вероятностью успеха атаки выше 90% для большинства из них; что важно, большинство средств защиты первоначально сообщали о почти нулевой вероятности успеха атаки. Мы считаем, что в будущих работах по обороне необходимо учитывать более сильные атаки, подобные тем, которые мы описываем, чтобы обосновать надежные и убедительные утверждения об их устойчивости. - The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections

Среди авторов - Nicholas Carlini

См. также другие публикации, посвященные LLM

No comments: