Tuesday, March 03, 2026

Оценка рисков для агентов

Агентные системы быстро переходят в производство, где они считывают ненадежные входные данные, вызывают инструменты с реальными правами доступа и действуют автономно, расширяя поверхность безопасности за пределы моделей, основанных на общении. Однако стандартные оценки остаются одноэтапными и не позволяют выявить многоступенчатые уязвимости агентов. Мы представляем систематическую структуру «черного ящика» для оценки агентов с учетом рисков, требующую только базового описания системы. Наш подход вводит: (1) семидоменную таксономию, сопоставляющую наблюдаемое поведение с категориями риска, (2) полностью автоматизированную работу SAGE-RT red команд, создающую 120 сценариев противодействия для каждого домена, и (3) оценку, проверенную людьми с использованием экспертов LLM. Эмпирическая проверка на двух архитектурах агентов (CrewAI и AutoGen) с четырьмя базовыми моделями выявляет тревожные закономерности: 56,25% среднего риска управления, 65% риска конфиденциальности в многоагентных конфигурациях и уязвимости поведения агентов, достигающие 85%. Наш подход «черного ящика» эффективно выявляет критические архитектурные уязвимости без привилегированного доступа, обеспечивая масштабируемый путь к более безопасному развертыванию агентов. - Black-Box Red Teaming of Agentic AI: A Taxonomy-Driven Framework for Automated Risk Discovery

См. также другие публикации, посвященные агентам

No comments: