Monday, September 29, 2025

Многослойная защита агентов ИИ

Атаки с использованием инъекций подсказок представляют собой серьёзную уязвимость в развёртываниях на основе больших языковых моделей (LLM), где вредоносные инструкции, встроенные в пользовательские вводимые данные, могут переопределять системные подсказки и вызывать непреднамеренное поведение. В данной статье представлена новая многоагентная структура защиты, которая использует специализированные агенты LLM в скоординированных конвейерах для обнаружения и нейтрализации атак с использованием инъекций подсказок в режиме реального времени. Мы оцениваем наш подход, используя две различные архитектуры: последовательный конвейер с цепочкой агентов и иерархическую систему на основе координатора. Наша комплексная оценка 55 уникальных атак с использованием инъекций подсказок, сгруппированных в 8 категорий и в общей сложности охватывающая 400 случаев атак на двух платформах LLM (ChatGLM и Llama2), демонстрирует значительное повышение безопасности. Без использования механизмов защиты базовый показатель успешности атак (ASR) достигал 30% для ChatGLM и 20% для Llama2. Наш многоагентный конвейер достиг 100%-ного снижения риска, снизив показатель ASR до 0% во всех протестированных сценариях. Фреймворк демонстрирует устойчивость к различным категориям атак, включая прямое переопределение, попытки выполнения кода, кражу данных и методы обфускации, сохраняя при этом функциональность системы для легитимных запросов. - A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks

Результаты каждого действия проверяет другая LLM

См. также другие публикации, посвященные LLM

P.P.S. См. также другие публикации, посвященные агентам

No comments: