Wednesday, June 24, 2026

Сложное тестирование агентов

Мы проводим всесторонний анализ безопасности автономных агентов-помощников,выявляя угрозы, присущие их уникальным архитектурным свойствам. Во-первых, мы создаем систематическую таксономию, охватывающую 20 реальных рисков, классифицированных на нарушения границ, устойчивое искажение состояния и вредоносные операции. Для дальнейшего выявления уязвимостей автономных агентов в условиях этих угроз мы предлагаем три передовые стратегии атаки, обеспечивающие обход защиты во временном, пространственном и семантическом измерениях: (i) Кросс-поворотная фрагментация: фрагментация и распределение вредоносных полезных нагрузок по нескольким взаимодействиям в рамках одной сессии; (ii) Обход защиты в пределах области обнаружения: внедрение полезных нагрузок атаки в сложные внешние артефакты, которые трудно проверить с помощью LLM; и (iii) Сокрытие в благоприятном контексте: сокрытие вредоносных намерений в объемной, на первый взгляд безобидной информации в длительном контексте. Мы моделируем эти риски и стратегии в A3S-Bench, эталонной системе, включающей 2254 многоходовых диалога (1512 случаев атак, охватывающих 34 метода атак, и 742 безопасных диалога). Набор данных охватывает шесть сценариев использования и два уровня сложности, сгенерированных с помощью автоматизированного трехэтапного конвейера синтеза. Каждый случай выполняется в изолированной среде и оценивается с использованием метрик оценки на основе действий, которые совместно количественно определяют как безопасность, так и полезность. - Benchmarking Autonomous Agents against Temporal, Spatial, and Semantic Evasions

Для тестирования агентов (как и для тестирования LLM) нужны multi-turn тесты

См. также другие публикации, посвященные агентам

No comments: