Friday, June 26, 2026

Это не лечится

Внедрение подсказок является наиболее критической уязвимостью в развернутых агентах ИИ. Несмотря на недавний прогресс, мы показываем, что преобладающая парадигма защиты (разделение данных и инструкций) не только не обнаруживает атаки, которые действуют посредством контекстной манипуляции, но и ухудшает контекстно-адекватное поведение. Затем мы переосмысливаем внедрение подсказок с точки зрения контекстной целостности (КИ), теории конфиденциальности, которая оценивает соответствие потока информации контекстным нормам. Это объясняет типы атак, которые существующие средства защиты пытаются предотвратить, и предсказывает сложные атаки, с которыми столкнутся будущие агенты. Мы разрабатываем уникальные безобидные и атакующие сценарии, которые заставляют агента нарушать нормы путем (1) искажения потока, (2) манипулирования нормами или (3) смешивания нескольких потоков. Эта переформулировка предполагает результат невозможности: противник всегда может сконструировать контекст, в котором заблокированный поток кажется легитимным, или защитник, который ужесточает нормы, будет блокировать действительно легитимные потоки. Наши результаты показывают, что текущее исследование затрагивает все меньшую долю будущих поверхностей атаки. Вместо этого, с помощью CI мы предлагаем принципиальную основу для оценки контекстно-зависимых сбоев и разработки согласования с учетом CI для передовых автономных агентов. - AI Agents May Always Fall for Prompt Injections

См. также другие публикации, посвященные агентам

No comments: