Saturday, June 27, 2026

О развернутых диалогах

Мы представляем MultiBreak, масштабируемый и разнообразный бенчмарк для многошагового джейлбрейка, предназначенный для оценки безопасности больших языковых моделей (LLM). Многошаговые джейлбрейки имитируют естественные разговорные ситуации, что делает их более удобными для обхода LLM, соответствующих требованиям безопасности, чем одношаговые джейлбрейки. Существующие многошаговые бенчмарки ограничены по размеру или сильно зависят от шаблонов, что ограничивает их разнообразие. Чтобы устранить этот пробел, мы объединяем широкий спектр вредоносных интентов джейлбрейка и представляем конвейер активного обучения для расширения высококачественных многошаговых противодействий, где генератор итеративно дорабатывается для создания более сильных кандидатов на атаку, руководствуясь уточнением на основе неопределенности. Наш MultiBreak включает 10 389 многошаговых противодействий, охватывает 2665 различных вредоносных интентов и включает самый разнообразный набор тем на сегодняшний день. Эмпирическая оценка показывает, что наш бенчмарк обеспечивает до 54,0% и 34,6% более высокий уровень успешности атаки (ASR), чем второй лучший набор данных на DeepSeek-R1-7B и GPT-4.1-mini, соответственно. Что еще важнее, оценки безопасности показывают, что различные категории атак выявляют тонкие уязвимости LLM, и категории, которые кажутся безобидными при однократном воздействии, могут демонстрировать значительно более высокую эффективность в многократных сценариях. Эти результаты подчеркивают устойчивые уязвимости LLM в реалистичных условиях противодействия и подтверждают, что MultiBreak является масштабируемым ресурсом для повышения безопасности LLM. - MultiBreak: A Scalable and Diverse Multi-turn Jailbreak Benchmark for Evaluating LLM Safety

См. также другие публикации, посвященные LLM

No comments: