См. также другие публикации, посвященные агентам
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Thursday, March 26, 2026
Караул для агентов
Агенты, использующие большие языковые модели (LLM), все чаще полагаются на внешние инструменты и системы поиска для автономного выполнения сложных задач. Однако такая конструкция делает агентов уязвимыми для косвенного внедрения подсказок (IPI), когда контролируемый злоумышленником контекст, встроенный в выходные данные инструмента или полученный контент, незаметно направляет действия агента в сторону, противоположную намерениям пользователя. В отличие от атак на основе подсказок, IPI разворачивается на протяжении нескольких циклов, что затрудняет отделение вредоносного управления от легитимного выполнения задачи. Существующие средства защиты на этапе вывода в основном полагаются на эвристическое обнаружение и консервативную блокировку действий с высоким риском, что может преждевременно завершать рабочие процессы или в целом подавлять использование инструментов в неоднозначных многоцикловых сценариях. Мы предлагаем AgentSentry, новую структуру обнаружения и смягчения последствий на этапе вывода для агентов LLM, дополненных инструментами. Насколько нам известно, AgentSentry — это первая система защиты на этапе вывода, которая моделирует многоцикловое внедрение подсказок как временное причинно-следственное поглощение. Он локализует точки захвата посредством контролируемых контрфактических повторных выполнений на границах возврата инструмента и обеспечивает безопасное продолжение работы за счет причинно-следственной очистки контекста, которая устраняет отклонения, вызванные атакой, сохраняя при этом релевантные для задачи доказательства. Мы оцениваем AgentSentry на бенчмарке AgentDojo по четырем наборам задач, трем семействам атак IPI и нескольким моделям LLM типа «черный ящик». AgentSentry исключает успешные атаки и поддерживает высокую полезность при атаке, достигая средней полезности при атаке (UA) 74,55%, улучшая UA на 20,8–33,6 процентных пункта по сравнению с самыми сильными базовыми показателями без ухудшения производительности в условиях безопасной среды. - AgentSentry: Mitigating Indirect Prompt Injection in LLM Agents via Temporal Causal Diagnostics and Context Purification
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment