Tuesday, September 02, 2025

Агенты под атакой

Большинство обсуждений безопасности больших языковых моделей (LLM) фокусировались на одноагентных системах, но многоагентные LLM-системы теперь создают новые риски соперничества, поскольку их поведение зависит от коммуникации между агентами и децентрализованного мышления. В этой работе мы инновационно фокусируемся на атаках на прагматичные системы с такими ограничениями, как ограниченная пропускная способность токенов, задержка между доставкой сообщений и защитные механизмы. Мы разрабатываем инвариантную к перестановкам состязательную атаку, которая оптимизирует распределение подсказок по топологиям сетей с ограничениями по задержке и пропускной способности, чтобы обойти распределенные механизмы безопасности внутри системы. Формулируя путь атаки как задачу максимального потока и минимальной стоимости в сочетании с новым методом потерь с инвариантностью к перестановкам (PIEL), мы используем оптимизацию на основе графов для максимизации вероятности успеха атаки при минимизации риска обнаружения. Оценивая различные модели, включая Llama, Mistral, Gemma, DeepSeek и другие варианты, на различных наборах данных, таких как JailBreakBench и AdversarialBench, наш метод превосходит традиционные атаки до 7 раз, выявляя критические уязвимости в многоагентных системах. Более того, мы демонстрируем, что существующие средства защиты, включая варианты Llama-Guard и PromptGuard, не способны предотвратить нашу атаку, что подчеркивает острую необходимость в механизмах безопасности, специфичных для многоагентных систем. - Agents Under Siege: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks

Одна из первых работ, посвященных атакам многоагентных систем.

См. также другие публикации, посвященные агентам

No comments: