AbavaNet technical corner: Атака на защитников

Sunday, July 05, 2026

Атака на защитников

Системы защиты на основе LLM стали высокоэффективной защитой от атак с быстрым внедрением и взломом в автономных агентах. Однако мы показываем, что сами возможности рассуждения и следования за задачей, обеспечивающие эту защиту, создают новую уязвимость: злоумышленники могут внедрять специально созданные данные, чтобы заманить систему защиты в длительные циклы рассуждения, осуществляя систематическую атаку типа «отказ в обслуживании» (DoS). Для систематического выявления этой угрозы мы разрабатываем оптимизационную структуру поиска по лучу, которая создает полезные нагрузки на естественном языке для максимизации длины рассуждения системы защиты, используя генератор предложений LLM, управляемый банком стратегий. Основываясь на наблюдении за природой системы защиты, ориентированной на следование по схеме, мы также предлагаем другую структуру атаки, основанную на структурных мутациях, учитывающих механизмы, с меньшей вычислительной нагрузкой. Эффективность атаки систематически оценивается в двух частях. Во-первых, в автономных оценках атака обобщается на различные архитектуры систем защиты, шаблоны безопасности и эталонные тесты агентов. Оптимизированные для полезной нагрузки на основе одного открытого исходного кода успешно передаются на восемь ведущих базовых платформ моделей (например, Claude, GPT, Gemini, DeepSeek, и Qwen), обеспечивая увеличение количества токенов в 13–63 раза. Во-вторых, в сквозных реальных развертываниях агентов (веб, настольные приложения, код, и многоагентные системы) атака выявляет увеличение задержки до 148 раз. Мы показываем, что один зараженный документ может насытить общие инфраструктуры защиты, фактически лишая размещенных агентов доступа и парализуя всю систему. Выявив эту уязвимость доступности, наша работа подчеркивает острую необходимость в разработке защитных механизмов с ограниченными затратами и устойчивых к ошибкам рассуждений. - From Shield to Target: Denial-of-Service Attacks on LLM-Based Agent Guardrails

См. также другие публикации, посвященные агентам

Sunday, July 05, 2026

Атака на защитников

No comments: