См. также другие публикации, посвященные агентам
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Wednesday, August 06, 2025
Автоматизация аудита моделей
Мы разрабатываем три агента, которые автономно выполняют задачи аудита выравнивания (согласованности). При тестировании на моделях с намеренно внесёнными проблемами согласованности наши агенты успешно выявляют скрытую цель LLM, проводят поведенческие оценки и выявляют проблемы с поведением LLM. Мы используем этих агентов для аудита согласованности передовых моделей, таких как Claude 4. - Building and evaluating alignment auditing agents
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment