Системы генеративного ИИ все чаще используются не только для создания контента, но и для извлечения данных, вызова инструментов и выполнения действий. В данной работе рассматриваются последствия этого сдвига для безопасности на уровне контента, моделей и агентов. Мы анализируем, как меняются требования к доступу злоумышленников, автономность системы и масштабы потенциального вреда по мере того, как модели переходят от генерации артефактов к выполнению операций с помощью цепочек инструментов и внешних API. Затем мы оцениваем технические контрмеры, включая обнаружение, водяные знаки, согласование и новые средства защиты агентов, и показываем, что некоторые из них зависят от форм институциональной координации, которые пока не обеспечиваются существующими механизмами управления. Во всех рассмотренных случаях развертывание возможностей и расширение поверхности атаки неоднократно опережают защитные меры по мере того, как системы переходят от генерации контента к выполнению действий в реальном мире. -
From AI-Generated Content to Agentic Action: Security and Safety Threats in Generative AI
Интересная статистика о том, какие формы атак достигают наивысших ASR:
Мультимодальный. Каналы зрения и звука обходят текстоцентричные фильтры безопасности. FigStep преобразует запрещенные инструкции в типографические изображения, достигая в среднем 82,5% ASR на шести LVLM с открытым исходным кодом. HADES сообщает о 90,26% ASR на LLaVA-1.5. AudioJailbreak достигает ≥87% ASR в универсальных условиях сильного противника.
На основе кодирования. Преобразование запросов в нестандартные представления использует более слабое покрытие безопасности за пределами типичного естественного языка. CipherChat сообщает о почти 100% обходе безопасности GPT-4 с помощью кодирования шифра. Перевод на языки с ограниченными ресурсами увеличивает показатели обхода с 1% до 79%. ArtPrompt использует ASCII-графику, и в смежных работах показано, что другие нестандартные представления, такие как Base64, ROT13 и код Морзе, аналогичным образом
используют более слабое покрытие безопасности в этих кодирующих пространствах.
См. также другие публикации, посвященные агентам
No comments:
Post a Comment