См. также другие публикации, посвященные агентам
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Thursday, May 28, 2026
Контекстные атаки в агентах
Появление агентов на основе больших языковых моделей (LLM), дополненных использованием инструментов, навыками, и внешними знаниями, породило новые риски безопасности. Среди них основной угрозой стали атаки с внедрением подсказок, когда злоумышленники внедряют вредоносные инструкции в рабочий процесс агента.
Однако существующие бенчмарки и средства защиты принципиально ограничены, поскольку они предполагают контекстно-независимые условия, в которых агент работает в соответствии с полностью заданной инструкцией пользователя, а атаки являются простыми и контекстно-независимыми. В результате они не позволяют оценить реальные условия эксплуатации, где поведение агента обычно зависит от динамического контекста, а не только от подсказки пользователя, и злоумышленники могут адаптировать свои атаки к различным контекстам.
Аналогично, существующие средства защиты, построенные на этой узкой модели угроз, игнорируют природу реального делегирования агентам. В этой статье мы представляем AgentLure, бенчмарк, который позволяет выявлять контекстно-зависимые задачи и атаки с внедрением подсказок с учетом контекста. AgentLure охватывает четыре агентных домена и восемь векторов атак на различных поверхностях атаки. Наша оценка показывает, что существующие средства защиты часто испытывают трудности в этой среде, демонстрируя низкую эффективность против таких атак в агентных системах. Для решения этой проблемы мы предлагаем ARGUS, механизм защиты, который обеспечивает аудит решений с учетом происхождения информации для агентов LLM. ARGUS строит граф происхождения влияния, чтобы
отслеживать, как недостоверный контекст распространяется на решения агентов, и проверяет, оправдано ли решение достоверными доказательствами до его выполнения. Наша оценка
показывает, что ARGUS снижает вероятность успешной атаки до 3,8%, сохраняя при этом 87,5% полезности задачи, значительно превосходя существующие средства защиты и оставаясь устойчивым к
адаптивным противникам типа «белый ящик». - ARGUS: Defending LLM Agents Against Context-Aware Prompt Injection
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment