AbavaNet technical corner: Контекстные атаки в агентах

Thursday, May 28, 2026

Контекстные атаки в агентах

Появление агентов на основе больших языковых моделей (LLM), дополненных использованием инструментов, навыками, и внешними знаниями, породило новые риски безопасности. Среди них основной угрозой стали атаки с внедрением подсказок, когда злоумышленники внедряют вредоносные инструкции в рабочий процесс агента. Однако существующие бенчмарки и средства защиты принципиально ограничены, поскольку они предполагают контекстно-независимые условия, в которых агент работает в соответствии с полностью заданной инструкцией пользователя, а атаки являются простыми и контекстно-независимыми. В результате они не позволяют оценить реальные условия эксплуатации, где поведение агента обычно зависит от динамического контекста, а не только от подсказки пользователя, и злоумышленники могут адаптировать свои атаки к различным контекстам. Аналогично, существующие средства защиты, построенные на этой узкой модели угроз, игнорируют природу реального делегирования агентам. В этой статье мы представляем AgentLure, бенчмарк, который позволяет выявлять контекстно-зависимые задачи и атаки с внедрением подсказок с учетом контекста. AgentLure охватывает четыре агентных домена и восемь векторов атак на различных поверхностях атаки. Наша оценка показывает, что существующие средства защиты часто испытывают трудности в этой среде, демонстрируя низкую эффективность против таких атак в агентных системах. Для решения этой проблемы мы предлагаем ARGUS, механизм защиты, который обеспечивает аудит решений с учетом происхождения информации для агентов LLM. ARGUS строит граф происхождения влияния, чтобы отслеживать, как недостоверный контекст распространяется на решения агентов, и проверяет, оправдано ли решение достоверными доказательствами до его выполнения. Наша оценка показывает, что ARGUS снижает вероятность успешной атаки до 3,8%, сохраняя при этом 87,5% полезности задачи, значительно превосходя существующие средства защиты и оставаясь устойчивым к адаптивным противникам типа «белый ящик». - ARGUS: Defending LLM Agents Against Context-Aware Prompt Injection

См. также другие публикации, посвященные агентам

Thursday, May 28, 2026

Контекстные атаки в агентах

No comments: