Wednesday, November 26, 2025

Тестирование мультиагентных систем

Большие языковые модели (LLM) продемонстрировали сильные возможности как автономных агентов благодаря использованию инструментов, планированию и принятию решений, что привело к их широкому внедрению в самых разных задачах. По мере роста сложности задач многоагентные системы LLM все чаще используются для совместного решения задач. Однако безопасность этих систем остается в значительной степени недостаточно изученной. Существующие бенчмарки и наборы данных в основном фокусируются на одноагентных настройках, не отражая уникальные уязвимости многоагентной динамики и координации. Чтобы устранить этот пробел, мы представляем «Угрозы и атаки в многоагентных системах» (TAMAS), бенчмарк, предназначенный для оценки надежности и безопасности многоагентных LLM-систем. TAMAS включает пять различных сценариев, включающих 300 соперничающих экземпляров шести типов атак и 211 инструментов, а также 100 безопасных задач. Мы оцениваем производительность системы на десяти базовых LLM и трёх конфигурациях взаимодействия агентов из фреймворков Autogen и CrewAI, выделяя критические проблемы и виды отказов в текущих мультиагентных развертываниях. Кроме того, мы вводим показатель эффективной надёжности (ERS) для оценки компромисса между безопасностью и эффективностью выполнения задач этих фреймворков. Наши результаты показывают, что многоагентные системы крайне уязвимы для атак со стороны злоумышленников, что подчёркивает острую необходимость в более эффективной защите. TAMAS обеспечивает основу для систематического изучения и повышения безопасности многоагентных LLM-систем. Код доступен по адресу https://github.com/microsoft/TAMAS. - TAMAS: Benchmarking Adversarial Risks in Multi-Agent LLM Systems

См. также другие публикации, посвященные агентам

No comments: