Страницы

Sunday, May 25, 2025

LLM агенты под атакой

Сильные возможности планирования и рассуждения Больших языковых моделей (LLM) способствовали разработке систем на основе агентов, способных использовать внешние инструменты и взаимодействовать с все более сложными средами. Однако эти мощные функции также представляют собой критический риск безопасности: непрямое внедрение подсказок, сложный вектор атаки, который компрометирует ядро этих агентов, LLM, манипулируя контекстной информацией, а не прямыми подсказками пользователя. В этой работе мы предлагаем общую структуру фаззинга черного ящика, AGENTFUZZER, разработанную для автоматического обнаружения и эксплуатации уязвимостей непрямого внедрения подсказок в различных агентах LLM. Наш подход начинается с построения высококачественного начального корпуса исходных данных, затем использует алгоритм выбора исходных данных на основе поиска по дереву Монте-Карло (MCTS) для итеративного уточнения входных данных, тем самым максимизируя вероятность обнаружения слабых сторон агента. Мы оцениваем AGENTFUZZER по двум публичным тестам, AgentDojo и VWAadv, где он достигает 71% и 70% успеха против агентов на основе o3-mini и GPT-4o соответственно, почти вдвое увеличивая производительность базовых атак. Более того, AGENTFUZZER демонстрирует сильную переносимость между невидимыми задачами и внутренними LLM, а также многообещающие результаты против защит. Помимо тестов, мы применяем наши атаки в реальных средах, успешно вводя агентов в заблуждение, чтобы они переходили на произвольные URL-адреса, включая вредоносные сайты. AI Red Team для агентов - AGENTFUZZER: Generic Black-Box Fuzzing for Indirect Prompt Injection against LLM Agents

См. также другие публикации, посвященные LLM

No comments:

Post a Comment