Friday, January 02, 2026

Как обезопасить MCP

Протокол контекста модели (MCP) позволяет большим языковым моделям (LLM) интегрировать внешние инструменты посредством структурированных дескрипторов, повышая автономность в таких областях, как принятие решений, выполнение задач и взаимодействие нескольких агентов. Однако эта автономность создает недооцененный пробел в безопасности. Существующие средства защиты в основном сосредоточены на атаках с внедрением подсказок и не справляются с угрозами, заложенными в метаданных инструментов, что делает системы на основе MCP уязвимыми для семантической эксплуатации. В данной работе анализируются три ключевых класса семантических атак, нацеленных на системы, интегрированные с MCP: (i) отравление инструментов (Tool Poisoning), внедрение скрытых враждебных инструкций в дескрипторы инструментов, (ii) теневое копирование (Shadowing), косвенное компрометирование доверенных инструментов посредством загрязнения общего контекста, и (iii) подмена дескрипторов (Rug Pulls) — мутации дескрипторов после утверждения, которые подрывают поведение инструментов. Для защиты от этих угроз мы предлагаем многоуровневую систему безопасности, состоящую из трех компонентов: (1) подписание манифеста на основе RSA для обеспечения целостности дескрипторов и предотвращения изменений после развертывания, (2) семантическая проверка LLM-on-LLM для обнаружения и пометки подозрительных дескрипторов инструментов и (3) легковесные эвристические механизмы защиты для блокировки аномального поведения инструментов во время выполнения. В ходе обширной оценки GPT-4, DeepSeek и Llama-3.5 с использованием восьми стратегий подсказок, от Zero-shot до Reflexion и Self-Critique, мы демонстрируем, что результаты безопасности значительно различаются в зависимости от архитектуры модели и стиля рассуждений. GPT-4 блокирует приблизительно 71% небезопасных вызовов инструментов, обеспечивая сбалансированный компромисс между задержкой и безопасностью. DeepSeek демонстрирует наивысшую устойчивость к атакам с использованием теневого отображения (97%), но имеет повышенную задержку (до 16,97 секунд), в то время как Llama-3.5 является самым быстрым (0,65 секунды), но наименее устойчивым к семантическим угрозам. Наши результаты показывают, что предложенная структура существенно снижает частоту небезопасных вызовов без необходимости тонкой настройки модели или внутренней модификации. - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks

См. также другие публикации, посвященные агентам

No comments: