Sunday, January 11, 2026

Атаки на мультимодальные LLM

Мы представляем атаку Adversarial Confusion Attack, новый класс угроз против многомодальных больших языковых моделей (MLLM). В отличие от взлома или целенаправленной неправильной классификации, цель состоит в том, чтобы вызвать систематическое нарушение, которое заставляет модель генерировать несогласованные или заведомо неверные результаты. Практические приложения включают встраивание таких состязательных изображений в веб-сайты, чтобы предотвратить надежную работу ИИ-агентов на базе MLLM. Предложенная атака максимизирует энтропию следующего токена, используя небольшой ансамбль MLLM с открытым исходным кодом. В условиях «белого ящика» мы показываем, что одно состязательное изображение может нарушить работу всех моделей в ансамбле, как в условиях полного изображения, так и в условиях Adversarial CAPTCHA. Несмотря на использование базовой состязательной техники (PGD), атака генерирует возмущения, которые переносятся как на неизвестные модели с открытым исходным кодом (например, Qwen3-VL), так и на проприетарные модели (например, GPT-5.1). - Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

См. также другие публикации, посвященные LLM

No comments: