AstaBench — это оценочная платформа для измерения научно-исследовательских способностей агентов ИИ. Она предоставляет более 2400 примеров в 11 тестах, которые проверяют весь спектр исследовательских навыков: от поиска литературы и выполнения кода до анализа данных и сквозного поиска информации. AstaBench также предоставляет стандартизированные инструменты и среды выполнения, позволяющие объективно сравнивать производительность и вычислительную эффективность.
Код для агентов также открыт
No comments:
Post a Comment