Мы разрабатываем три агента, которые автономно выполняют задачи аудита выравнивания (согласованности). При тестировании на моделях с намеренно внесёнными проблемами согласованности наши агенты успешно выявляют скрытую цель LLM, проводят поведенческие оценки и выявляют проблемы с поведением LLM. Мы используем этих агентов для аудита согласованности передовых моделей, таких как Claude 4. -
Building and evaluating alignment auditing agents
См. также другие публикации, посвященные агентам
No comments:
Post a Comment