Страницы

Wednesday, August 06, 2025

Автоматизация аудита моделей

Мы разрабатываем три агента, которые автономно выполняют задачи аудита выравнивания (согласованности). При тестировании на моделях с намеренно внесёнными проблемами согласованности наши агенты успешно выявляют скрытую цель LLM, проводят поведенческие оценки и выявляют проблемы с поведением LLM. Мы используем этих агентов для аудита согласованности передовых моделей, таких как Claude 4. - Building and evaluating alignment auditing agents

См. также другие публикации, посвященные агентам

No comments:

Post a Comment