Атаки с использованием инъекций подсказок представляют собой серьёзную уязвимость в развёртываниях на основе больших языковых моделей (LLM), где вредоносные инструкции, встроенные в пользовательские вводимые данные, могут переопределять системные подсказки и вызывать непреднамеренное поведение. В данной статье представлена новая многоагентная структура защиты, которая использует специализированные агенты LLM в скоординированных конвейерах для обнаружения и нейтрализации атак с использованием инъекций подсказок в режиме реального времени. Мы оцениваем наш подход, используя две различные архитектуры: последовательный конвейер с цепочкой агентов и иерархическую систему на основе координатора. Наша комплексная оценка 55 уникальных атак с использованием инъекций подсказок, сгруппированных в 8 категорий и в общей сложности охватывающая 400 случаев атак на
двух платформах LLM (ChatGLM и Llama2), демонстрирует значительное повышение безопасности. Без использования механизмов защиты базовый показатель успешности атак (ASR) достигал 30% для ChatGLM и 20% для Llama2. Наш многоагентный конвейер достиг 100%-ного снижения риска, снизив показатель ASR до 0% во всех протестированных сценариях. Фреймворк демонстрирует устойчивость к различным категориям атак, включая прямое переопределение, попытки выполнения кода, кражу данных и методы обфускации, сохраняя при этом функциональность системы для легитимных запросов. -
A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks
Результаты каждого действия проверяет другая LLM
См. также другие публикации, посвященные LLM
P.P.S. См. также другие публикации, посвященные агентам
No comments:
Post a Comment