См. также другие публикации, посвященные агентам
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, June 26, 2026
Это не лечится
Внедрение подсказок является наиболее критической уязвимостью в развернутых агентах ИИ. Несмотря на недавний прогресс, мы показываем, что преобладающая парадигма защиты (разделение данных и инструкций) не только не обнаруживает атаки, которые действуют посредством контекстной манипуляции, но и ухудшает контекстно-адекватное поведение. Затем мы переосмысливаем внедрение подсказок
с точки зрения контекстной целостности (КИ), теории конфиденциальности, которая оценивает соответствие потока информации контекстным нормам. Это объясняет типы атак, которые существующие
средства защиты пытаются предотвратить, и предсказывает сложные атаки, с которыми столкнутся будущие агенты. Мы разрабатываем уникальные безобидные и атакующие сценарии, которые заставляют агента нарушать нормы путем (1) искажения потока, (2) манипулирования нормами или (3) смешивания нескольких потоков. Эта переформулировка предполагает результат невозможности: противник всегда может сконструировать контекст, в котором заблокированный поток кажется легитимным, или защитник, который ужесточает нормы, будет блокировать действительно легитимные потоки. Наши результаты показывают, что текущее исследование затрагивает все меньшую долю будущих поверхностей атаки. Вместо этого, с помощью CI мы предлагаем принципиальную основу для оценки контекстно-зависимых сбоев и разработки согласования с учетом CI для передовых автономных агентов. - AI Agents May Always Fall for Prompt Injections
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment