См. также другие публикации, посвященные агентам
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Sunday, July 05, 2026
Атака на защитников
Системы защиты на основе LLM стали высокоэффективной защитой от атак с быстрым внедрением и взломом в автономных агентах. Однако мы показываем, что сами возможности рассуждения и следования за задачей, обеспечивающие эту защиту, создают новую уязвимость: злоумышленники могут внедрять специально созданные данные, чтобы заманить систему защиты в длительные циклы рассуждения, осуществляя систематическую атаку типа «отказ в обслуживании» (DoS). Для систематического выявления этой угрозы мы разрабатываем оптимизационную структуру поиска по лучу, которая создает полезные нагрузки на естественном языке для максимизации длины рассуждения системы защиты, используя генератор предложений LLM, управляемый банком стратегий. Основываясь на наблюдении за природой системы защиты, ориентированной на следование по схеме, мы также предлагаем другую структуру атаки, основанную на структурных мутациях, учитывающих механизмы, с меньшей вычислительной нагрузкой. Эффективность атаки систематически оценивается в двух частях. Во-первых, в автономных оценках атака обобщается на различные архитектуры систем защиты, шаблоны безопасности и эталонные тесты агентов. Оптимизированные для полезной нагрузки на основе одного открытого исходного кода успешно передаются на восемь ведущих базовых платформ моделей (например, Claude, GPT, Gemini, DeepSeek,
и Qwen), обеспечивая увеличение количества токенов в 13–63 раза. Во-вторых, в сквозных реальных развертываниях агентов (веб, настольные приложения, код, и многоагентные системы) атака выявляет увеличение задержки до 148 раз. Мы показываем, что один зараженный документ может насытить общие инфраструктуры защиты, фактически лишая размещенных агентов доступа и парализуя всю систему. Выявив эту уязвимость доступности, наша работа подчеркивает острую необходимость в разработке защитных механизмов с ограниченными затратами и устойчивых к ошибкам рассуждений. - From Shield to Target: Denial-of-Service Attacks on LLM-Based Agent Guardrails
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment