Thursday, June 25, 2026

О доверенных агентных системах

Агентные системы искусственного интеллекта — большие языковые модели (LLM), дополненные планированием, использованием инструментов, памятью и взаимодействием на долгосрочную перспективу — могут автономно выполнять сложные задачи, но их многоэтапные траектории приводят к новым режимам сбоев, которые ставят под сомнение надежность. Этот обзор представляет собой целенаправленное исследование надежного агентного ИИ по двум основным параметрам, которые имеют решающее значение для развертывания в условиях высокого риска: безопасность и надежность, а также конфиденциальность и безопасность системы. Для каждого параметра мы уточняем ключевые понятия, определяем, где возникают риски на протяжении рабочего процесса агента, и обобщаем стратегии смягчения рисков на каждом этапе. Другие аспекты надежности (согласование ценностей, прозрачность, справедливость и подотчетность) обсуждаются в качестве контекста, а не в отдельных главах. Для обеспечения согласованного сравнения и принятия решений о развертывании мы объединяем оценку в единый центр метрик и бенчмарков, уделяя особое внимание как результатам, так и сигналам процесса (например, нарушениям ограничений, полноте трассировки и показателям успешности противодействия) и предлагая рекомендации по преобразованию сценариев в метрики для управления процессом выпуска. В заключение мы описываем открытые проблемы, такие как саморазвивающиеся агенты, мониторинг и проверка в режиме реального времени, персонализация с сохранением конфиденциальности и компромисс между доверием и полезностью, а также представляем пример реальных сбоев безопасности в агентных системах с открытым исходным кодом (OpenClaw/Moltbook). Наша цель — служить практическим справочником для исследователей и практиков, создающих надежные агентные системы в условиях высокой ответственности. - Towards trustworthy agentic AI: a comprehensive survey of safety, robustness, privacy, and system security

См. также другие публикации, посвященные агентам

No comments: