Несмотря на растущий интерес к многоагентным системам LLM (MAS), их прирост производительности в популярных бенчмарках часто остаётся минимальным по сравнению с одноагентными фреймворками. Этот разрыв подчёркивает необходимость систематического анализа проблем, препятствующих эффективности MAS.
Мы представляем MAST (Таксономию отказов многоагентных систем) – первую эмпирически разработанную обоснованную таксономию для понимания отказов MAS. Мы анализируем семь популярных фреймворков MAS для более чем 200 задач с участием шести экспертов-аннотаторов. В ходе этого процесса мы выявляем 14 уникальных режимов отказов, сгруппированных в 3 основные категории: (i) проблемы спецификации, (ii) межагентное несоответствие и (iii) верификация задач. MAST формируется итеративно на основе строгих исследований согласованности между аннотаторами, достигая значения коэффициента Каппа Коэна 0,88. Для поддержки масштабируемой оценки мы разрабатываем валидированный конвейер LLM-as-a-Judge, интегрированный с MAST. Мы используем два тематических исследования, чтобы продемонстрировать практическую пользу MAST для анализа отказов и разработки MAS. Наши результаты показывают, что выявленные отказы требуют более сложных решений, что намечает четкую дорожную карту для будущих исследований. Мы открываем исходный код нашего всеобъемлющего набора данных и аннотатора LLM для содействия дальнейшей разработке MAS. -
Why Do Multi-Agent LLM Systems Fail?
Интересная работа - таксономия ошибок в ИИ-агентах
См. также другие публикации, посвященные агентам
No comments:
Post a Comment