Saturday, January 10, 2026

Тесты безопасности MCP

Протокол контекста модели (MCP) стандартизирует способы обнаружения, описания и вызова внешних инструментов агентами больших языковых моделей (LLM). Хотя MCP обеспечивает широкую совместимость, он также расширяет поверхность атаки, делая инструменты первоклассными, компонуемыми объектами с метаданными на естественном языке и стандартизированным вводом-выводом. Мы представляем MSB (MCP Security Benchmark), первый комплексный набор инструментов для оценки, который систематически измеряет, насколько хорошо агенты LLM противостоят атакам, специфичным для MCP, на протяжении всего конвейера использования инструментов: планирование задач, вызов инструментов и обработка ответов. MSB включает в себя: (1) таксономию из 12 атак, включая коллизию имен, манипулирование предпочтениями, внедрение подсказок, встроенных в описания инструментов, запросы параметров вне области видимости, ответы, имитирующие пользователя, эскалацию ложных ошибок, передачу инструментов, внедрение запросов на получение и смешанные атаки; (2) оценочный инструмент, который выполняет атаки путем запуска реальных инструментов (как безопасных, так и вредоносных) через MCP, а не симуляцию; и (3) метрика устойчивости, которая количественно оценивает компромисс между безопасностью и производительностью: Net Resilient Performance (NRP). Мы оцениваем девять популярных агентов LLM в 10 областях и более чем 400 инструментах, создавая 2000 экземпляров атак. Результаты показывают эффективность атак против каждого этапа MCP. Модели с более высокой производительностью более уязвимы для атак из-за их выдающихся возможностей вызова инструментов и следования инструкциям. MSB предоставляет практическую основу для исследователей и практиков для изучения, сравнения и повышения устойчивости агентов MCP. - MCP Security Bench (MSB): Benchmarking Attacks Against Model Context Protocol in LLM Agents

См. также другие публикации, посвященные агентам

No comments: