технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, April 10, 2026
Тестируем отравление инструментов MCP
"Предоставляя стандартизированный интерфейс для взаимодействия агентов LLM с внешними инструментами, протокол контекста модели (MCP) быстро становится краеугольным камнем современной экосистемы автономных агентов. Однако он создает новые уязвимости из-за ненадежных внешних инструментов. В то время как предыдущие работы были сосредоточены на атаках, внедряемых через выходные данные внешних инструментов, мы исследуем более фундаментальную уязвимость: отравление инструментов (Tool Poisoning), когда вредоносные инструкции внедряются в метаданные инструмента без выполнения. До настоящего времени эта угроза демонстрировалась в основном на отдельных случаях, без систематической крупномасштабной оценки. Мы представляем MCPTox, первый бенчмарк для систематической оценки устойчивости агентов к отравлению инструментов в реалистичных условиях MCP. MCPTox построен на основе 45 действующих серверов MCP и 353 аутентичных инструментов. Для этого мы разработали три различных шаблона атак для генерации полного набора из 1312 вредоносных тестовых случаев с помощью обучения с малым количеством примеров, охватывающих 10 категорий потенциальных рисков. Наша оценка на 20 известных агентах LLM выявила широко распространенную уязвимость к отравлению инструментов (Tool Poisoning), при этом o1-mini достиг показателя успешности атаки в 72,8%. Мы обнаружили, что более совершенные модели часто более подвержены атаке, поскольку она использует их превосходные способности к выполнению инструкций. Наконец, анализ случаев неудачи показывает, что агенты редко отказываются от этих атак, при этом самый высокий показатель отказов (Claude-3.7-Sonnet) составляет менее 3%, что демонстрирует неэффективность существующих механизмов обеспечения безопасности против вредоносных действий, использующих легитимные инструменты для несанкционированной работы. Наши результаты создают важную эмпирическую основу для понимания и смягчения этой широко распространенной угрозы, и мы выпускаем MCPTox для разработки проверяемо более безопасных агентов ИИ. Наш набор данных доступен в анонимизированном репозитории." - MCPTox: A Benchmark for Tool Poisoning Attack on Real-World MCP Servers
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment