Wednesday, May 20, 2026

Состязательная устойчивость LLM

Большие языковые модели достигли замечательных успехов, но остаются крайне уязвимыми для атак типа «взлом системы», когда враждебные подсказки заставляют модели генерировать вредоносные, неэтичные или нарушающие правила выходные данные. Такие атаки представляют собой реальные риски, подрывая безопасность, доверие и соблюдение нормативных требований в приложениях с высокими ставками. Хотя было предложено множество методов атаки и защиты, существующие методы оценки неадекватны, часто опираясь на узкие метрики, такие как процент успешности атаки, которые не отражают многомерный характер безопасности LLM. В этой статье мы представляем систематическую таксономию атак и методов защиты типа «взлом системы» и представляем Security Cube — единую многомерную структуру для всесторонней оценки этих методов. Мы приводим подробные сравнительные таблицы существующих атак и методов защиты, выделяя ключевые выводы и открытые проблемы в литературе. Используя Security Cube, мы проводим сравнительные исследования 13 репрезентативных атак и 5 методов защиты, создавая четкое представление о текущей ситуации, охватывающей атаки типа «взлом системы», методы защиты, автоматизированные системы проверки и уязвимости БЛМ. На основе этих оценок мы обобщаем важные выводы, выявляем нерешенные проблемы и намечаем перспективные направления исследований для повышения устойчивости LLM к атакам с использованием джейлбрейка. Наш анализ призван проложить путь к созданию более надежных, интерпретируемых и заслуживающих доверия систем LLM. Наш код доступен на Code. - SoK: Robustness in Large Language Models against Jailbreak Attacks

См. также другие публикации, посвященные LLM

No comments: