Автономные агенты, построенные на больших языковых моделях, представляют собой особые проблемы безопасности. Исследователи разработали систему для защиты агентов от распространённых уязвимостей.
Сахана Ченнабасаппа и её коллеги выпустили LlamaFirewall — систему с открытым исходным кодом, предназначенную для противодействия трём видам атак: (i) джейлбрейку (запросы, обходящие встроенные защитные механизмы LLM), (ii) перехвату цели (входные данные, направленные на изменение заданной LLM цели) и (iii) эксплуатации уязвимостей в сгенерированном коде. Код и модели доступны бесплатно для проектов с ежемесячной аудиторией до 700 миллионов активных пользователей.
Ключевое замечание: безопасность LLM обычно фокусируется на фильтрации входных данных и тонкой настройке выходных данных. Однако агентские LLM сохраняют уязвимости, которые не устраняются этими методами, а также создают новые. Получение инструкций делает их уязвимыми для взлома, использование инструментов делает их уязвимыми для перехвата цели (например, когда агент выполняет веб-поиск и обнаруживает вредоносные данные), а выходной код может создавать уязвимости безопасности за пределами самого агента. Для защиты от этих уязвимостей система безопасности может фильтровать вредоносные запросы, отслеживать цепочки мыслей на предмет отклонений от заданных целей и проверять сгенерированный код на наличие ошибок.
Как это работает: LlamaFirewall объединяет три модуля:
PromptGuard 2: Для блокировки вредоносного ввода DeBERTa, преобразователь с 86 миллионами параметров, настроенный на классификацию запросов на безопасные и вредоносные, классифицирует входящий текст от пользователей или внешних инструментов.
AlignmentCheck: Для обнаружения перехвата цели Llama 4 Maverick сравнивает цепочки рассуждений, вызовы инструментов и выходные данные с целью пользователя, указанной в исходном запросе. Если сгенерированный текст или вызовы инструментов отклоняются от предполагаемой цели пользователя, LlamaFirewall останавливает генерацию.
CodeShield: Для проверки сгенерированного кода на наличие уязвимостей этот модуль использует правила для выявления небезопасных шаблонов в сгенерированном коде, таких как уязвимость к SQL-инъекциям (например, «SELECT * FROM users WHERE email LIKE '» + domain + «'», что позволяет выполнять SQL-инъекции через несанкционированный входной параметр «domain»). Модуль предотвращает передачу небезопасного кода пользователям до тех пор, пока агент не исправит код и он не пройдет проверку. Результаты: Авторы оценили LlamaFirewall с помощью AgentDojo, среды, которая оценивает атаки на 10 агентов (10 различных LLM в сочетании с агентской платформой авторов).
С LlamaFirewall атаки были успешными в 1,7% случаев. Без LlamaFirewall — в 17,6%. AlignmentCheck обнаружил 83% атак в проприетарном наборе данных с частотой ложноположительных срабатываний 2,5%. Авторы настроили порог классификации PromptGuard 2 так, чтобы достичь уровня ложноположительных срабатываний в 1%. При таком уровне PromptGuard 2 обнаружил 97,5% атак в проприетарном наборе данных. Авторы также сравнили производительность PromptGuard 2 с конкурирующими классификаторами подсказок, использующими AgentDojo. С PromptGuard 2 3,3% попыток взлома были успешными. При использовании следующего по эффективности конкурента, ProtectAI (код - здесь), 13,7% попыток были успешными.
Почему это важно: Рост популярности агентных систем открывает новые векторы кибератак, а риски безопасности, вероятно, возрастут, поскольку агенты работают с большей автономностью и выполняют более важные задачи. LlamaFirewall решает широкий спектр потенциальных проблем безопасности с помощью инструментария с открытым исходным кодом.
Мы думаем: Эта работа служит полезным напоминанием о том, что, хотя генеративные LLM сейчас в моде, классификаторы в стиле BERT остаются полезными, когда приложению требуется быстро классифицировать текст.
/via deeplearning.ai
No comments:
Post a Comment