Thursday, November 14, 2024

Атаки на ИИ агенты

Хотя агенты на основе LLM, работающие на основе больших языковых моделей (LLM), могут использовать внешние инструменты и механизмы памяти для решения сложных реальных задач, они также могут привносить критические уязвимости безопасности. Однако существующая литература не дает всесторонней оценки атак и защиты от агентов на основе LLM. Чтобы решить эту проблему, мы представляем Agent Security Bench (ASB), комплексную структуру, предназначенную для формализации, сравнительного анализа и оценки атак и защиты агентов на основе LLM, включая 10 сценариев (например, электронная коммерция, автономное вождение, финансы), 10 агентов, нацеленных на сценарии, более 400 инструментов, 23 различных типа методов атаки/защиты и 8 метрик оценки. Основываясь на ASB, мы сравниваем 10 атак с подсказками, атаку с отравлением памяти, новую атаку с бэкдором Plan-of-Thought, смешанную атаку и 10 соответствующих защит в 13 магистралях LLM с почти 90 000 тестовых случаев в общей сложности. Результаты наших тестов выявляют критические уязвимости на разных этапах работы агента, включая системный запрос, обработку пользовательских запросов, использование инструментов и извлечение памяти, с наивысшим средним показателем успешности атак 84,30%, но ограниченной эффективностью, показанной в текущих средствах защиты, что раскрывает важные работы, которые необходимо выполнить в плане безопасности агента для сообщества. Наш код можно найти по адресу https://github.com/agiresearch/ASB - AGENT SECURITY BENCH (ASB): FORMALIZING AND BENCHMARKING ATTACKS AND DEFENSES IN LLM-BASED AGENTS

P.S. См. также другие публикации, посвященные LLM

No comments: