Monday, June 01, 2026

Адаптивные косквенные инъекции подсказок

Агенты на основе LLM все чаще используются для сложных задач, требующих планирования, использования инструментов, и взаимодействия с внешними сервисами. Их зависимость от ненадежного внешнего контента делает их уязвимыми для косвенной инъекции подсказок (IPI), при которой враждебные инструкции, встроенные в полученные данные, перехватывают поведение агента. Существующие атаки основаны на статических полезных нагрузках, которые не могут адаптироваться к специфическим для агента средствам защиты; даже в современных адаптивных методах отсутствует структурированная обратная связь для управления оптимизацией. Мы представляем IterInject, итеративную структуру с обратной связью, которая замыкает цикл между инъекцией, диагностикой и уточнением: диагност, основанный на правилах, генерирует структурированные метки результатов с описаниями поведения, а оптимизатор на основе LLM уточняет полезные нагрузки с учетом полной истории оптимизации. Этап синтеза генерирует новые начальные значения маскировки из шаблонов ошибок, позволяя пространству стратегий самостоятельно развиваться. На AgentDojo и InjectAgent IterInject значительно превосходит статические базовые модели и существующие адаптивные методы по четырем моделям жертв. Эксперименты по расширению на примере Claude Code, агента кодирования производственного уровня, обладающего многоуровневой защитой, показывают, что оптимизированные полезные нагрузки достигают полного успеха на 5 из 9 целей; даже те, которые сопротивляются полной эксплуатации, демонстрируют измеримое улучшение в результате итеративного уточнения. Мы также представляем механистический анализ IPI, выявляющий механизм порогового значения, опосредованный вниманием, на средних и поздних уровнях; три причинно-следственных вмешательства подтверждают это открытие и указывают на конкретные направления защиты. - IterInject: Indirect Prompt Injection Against LLM Agents via Feedback-Guided Iterative Optimization

См. также другие публикации, посвященные агентам

No comments: