Wednesday, October 29, 2025

Самогубство LLM

Мы представляем новый подход к атакам на большие языковые модели (LLM) типа «черный ящик», используя их способность выражать уверенность на естественном языке. Существующие атаки типа «черный ящик» требуют либо доступа к непрерывным выходным данным модели, таким как логиты или оценки уверенности (которые редко доступны на практике), либо полагаются на прокси-сигналы от других моделей. Вместо этого мы демонстрируем, как побудить LLM выражать свою внутреннюю уверенность способом, достаточно калиброванным для обеспечения эффективной состязательной оптимизации. Мы применяем наш общий метод к трём сценариям атак: состязательным примерам для Vision-LLM, джейлбрейкам и инъекциям подсказок. Наши атаки успешно генерируют вредоносные входные данные против систем, которые открывают только текстовые выходные данные, тем самым значительно расширяя поверхность атаки для развёрнутых LLM. Мы также обнаружили, что более качественные и более крупные модели демонстрируют превосходную калибровку при выражении уверенности, создавая тревожный парадокс безопасности, когда улучшение возможностей модели напрямую увеличивает уязвимость. - BLACK-BOX OPTIMIZATION OF LLM OUTPUTS BY ASKING FOR DIRECTIONS

Интересная идея - раз логиты недоступны, давайте спросим о них у самой модели. Демонстрируя свои знания, модель открывает новые поверхности атаки. Эта музыка будет вечной ...

См. также другие публикации, посвященные LLM

No comments: