Monday, March 02, 2026

О содержательном тестировании ИИ-агентов

ИИ-агенты, автономно взаимодействующие с внешними инструментами и средами, демонстрируют большие перспективы в реальных приложениях. Однако внешние данные, которые потребляет агент, также приводят к риску атак с непрямым внедрением подсказок, когда вредоносные инструкции, встроенные в сторонний контент, перехватывают поведение агента. Опираясь на такие бенчмарки, как AgentDojo, был достигнут значительный прогресс в разработке защиты от указанных атак. По мере развития технологии и все большего использования агентов для решения более сложных задач, возникает все более острая необходимость в развитии бенчмарка, чтобы он отражал угрозы, с которыми сталкиваются новые агентные системы. В этой работе мы выявляем три фундаментальных недостатка в существующих бенчмарках и продвигаем границы в этих направлениях: (i) отсутствие динамических задач с открытым концом, (ii) отсутствие полезных инструкций и (iii) упрощенные задачи для пользователей. Чтобы преодолеть этот разрыв, мы представляем AgentDyn, разработанный вручную бенчмарк, включающий 60 сложных задач с открытым концом и 560 тестовых случаев внедрения кода в сферах покупок, GitHub и повседневной жизни. В отличие от предыдущих статических бенчмарков, AgentDyn требует динамического планирования и включает полезные инструкции от сторонних разработчиков. Наша оценка десяти передовых средств защиты показывает, что почти все существующие средства защиты либо недостаточно безопасны, либо страдают от значительной избыточной защиты, что свидетельствует о том, что существующие средства защиты все еще далеки от реального применения. Наш бенчмарк доступен по адресу https://github.com/leolee99/AgentDyn - AgentDyn: A Dynamic Open-Ended Benchmark for Evaluating Prompt Injection Attacks of Real-World Agent Security System

См. также другие публикации, посвященные агентам

No comments: