Friday, September 12, 2025

Защитник агентов

Кибербезопасность для агентов

Автономные агенты, построенные на больших языковых моделях, представляют собой особые проблемы безопасности. Исследователи разработали систему для защиты агентов от распространённых уязвимостей.

Сахана Ченнабасаппа и её коллеги выпустили LlamaFirewall — систему с открытым исходным кодом, предназначенную для противодействия трём видам атак: (i) джейлбрейку (запросы, обходящие встроенные защитные механизмы LLM), (ii) перехвату цели (входные данные, направленные на изменение заданной LLM цели) и (iii) эксплуатации уязвимостей в сгенерированном коде. Код и модели доступны бесплатно для проектов с ежемесячной аудиторией до 700 миллионов активных пользователей.

Ключевое замечание: безопасность LLM обычно фокусируется на фильтрации входных данных и тонкой настройке выходных данных. Однако агентские LLM сохраняют уязвимости, которые не устраняются этими методами, а также создают новые. Получение инструкций делает их уязвимыми для взлома, использование инструментов делает их уязвимыми для перехвата цели (например, когда агент выполняет веб-поиск и обнаруживает вредоносные данные), а выходной код может создавать уязвимости безопасности за пределами самого агента. Для защиты от этих уязвимостей система безопасности может фильтровать вредоносные запросы, отслеживать цепочки мыслей на предмет отклонений от заданных целей и проверять сгенерированный код на наличие ошибок.

Как это работает: LlamaFirewall объединяет три модуля:

PromptGuard 2: Для блокировки вредоносного ввода DeBERTa, преобразователь с 86 миллионами параметров, настроенный на классификацию запросов на безопасные и вредоносные, классифицирует входящий текст от пользователей или внешних инструментов.

AlignmentCheck: Для обнаружения перехвата цели Llama 4 Maverick сравнивает цепочки рассуждений, вызовы инструментов и выходные данные с целью пользователя, указанной в исходном запросе. Если сгенерированный текст или вызовы инструментов отклоняются от предполагаемой цели пользователя, LlamaFirewall останавливает генерацию.

CodeShield: Для проверки сгенерированного кода на наличие уязвимостей этот модуль использует правила для выявления небезопасных шаблонов в сгенерированном коде, таких как уязвимость к SQL-инъекциям (например, «SELECT * FROM users WHERE email LIKE '» + domain + «'», что позволяет выполнять SQL-инъекции через несанкционированный входной параметр «domain»). Модуль предотвращает передачу небезопасного кода пользователям до тех пор, пока агент не исправит код и он не пройдет проверку. Результаты: Авторы оценили LlamaFirewall с помощью AgentDojo, среды, которая оценивает атаки на 10 агентов (10 различных LLM в сочетании с агентской платформой авторов).

С LlamaFirewall атаки были успешными в 1,7% случаев. Без LlamaFirewall — в 17,6%. AlignmentCheck обнаружил 83% атак в проприетарном наборе данных с частотой ложноположительных срабатываний 2,5%. Авторы настроили порог классификации PromptGuard 2 так, чтобы достичь уровня ложноположительных срабатываний в 1%. При таком уровне PromptGuard 2 обнаружил 97,5% атак в проприетарном наборе данных. Авторы также сравнили производительность PromptGuard 2 с конкурирующими классификаторами подсказок, использующими AgentDojo. С PromptGuard 2 3,3% попыток взлома были успешными. При использовании следующего по эффективности конкурента, ProtectAI (код - здесь), 13,7% попыток были успешными.

Почему это важно: Рост популярности агентных систем открывает новые векторы кибератак, а риски безопасности, вероятно, возрастут, поскольку агенты работают с большей автономностью и выполняют более важные задачи. LlamaFirewall решает широкий спектр потенциальных проблем безопасности с помощью инструментария с открытым исходным кодом.

Мы думаем: Эта работа служит полезным напоминанием о том, что, хотя генеративные LLM сейчас в моде, классификаторы в стиле BERT остаются полезными, когда приложению требуется быстро классифицировать текст.

/via deeplearning.ai

No comments: