Большинство обсуждений безопасности больших языковых моделей (LLM) фокусировались на одноагентных системах, но многоагентные LLM-системы теперь создают новые риски соперничества, поскольку их поведение зависит от коммуникации между агентами и децентрализованного мышления. В этой работе мы инновационно фокусируемся на атаках на прагматичные системы с такими ограничениями, как ограниченная пропускная способность токенов, задержка между доставкой сообщений и защитные механизмы. Мы разрабатываем инвариантную к перестановкам состязательную атаку, которая оптимизирует распределение подсказок по топологиям сетей с ограничениями по задержке и пропускной способности, чтобы обойти распределенные механизмы безопасности внутри системы. Формулируя путь атаки как задачу максимального потока и минимальной стоимости в сочетании с новым методом потерь с инвариантностью к перестановкам (PIEL), мы используем оптимизацию на основе графов для максимизации вероятности успеха атаки при минимизации риска обнаружения. Оценивая различные модели, включая Llama, Mistral, Gemma, DeepSeek и другие варианты,
на различных наборах данных, таких как JailBreakBench и AdversarialBench, наш метод превосходит традиционные атаки до 7 раз, выявляя критические уязвимости в многоагентных системах. Более того, мы демонстрируем, что существующие средства защиты, включая варианты Llama-Guard и PromptGuard, не способны предотвратить нашу атаку, что подчеркивает острую необходимость в механизмах безопасности, специфичных для многоагентных систем. - Agents
Under Siege: Breaking Pragmatic Multi-Agent LLM Systems with Optimized Prompt Attacks
Одна из первых работ, посвященных атакам многоагентных систем.
См. также другие публикации, посвященные агентам
No comments:
Post a Comment