См. также другие публикации, посвященные агентам
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Wednesday, November 26, 2025
Тестирование мультиагентных систем
Большие языковые модели (LLM) продемонстрировали сильные возможности как автономных агентов благодаря использованию инструментов, планированию и принятию решений, что привело к их широкому внедрению в самых разных задачах. По мере роста сложности задач многоагентные системы LLM все чаще используются для совместного решения задач. Однако безопасность этих систем остается в значительной степени недостаточно изученной. Существующие бенчмарки и наборы данных в основном фокусируются на одноагентных настройках, не отражая уникальные уязвимости многоагентной динамики и координации. Чтобы устранить этот пробел, мы представляем «Угрозы и атаки в многоагентных системах» (TAMAS),
бенчмарк, предназначенный для оценки надежности и безопасности многоагентных LLM-систем. TAMAS включает пять различных сценариев, включающих 300 соперничающих экземпляров шести типов атак и 211 инструментов, а также
100 безопасных задач. Мы оцениваем производительность системы на десяти базовых LLM и трёх конфигурациях взаимодействия агентов из фреймворков Autogen и CrewAI, выделяя критические проблемы и виды отказов в текущих
мультиагентных развертываниях. Кроме того, мы вводим показатель эффективной надёжности (ERS) для оценки компромисса между безопасностью и эффективностью выполнения задач этих фреймворков. Наши результаты показывают, что многоагентные системы крайне уязвимы для атак со стороны злоумышленников, что подчёркивает острую необходимость в более эффективной защите. TAMAS обеспечивает основу для систематического изучения и повышения безопасности многоагентных LLM-систем. Код доступен по адресу https://github.com/microsoft/TAMAS. - TAMAS: Benchmarking Adversarial Risks in Multi-Agent LLM Systems
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment