Monday, November 10, 2025

Состязательное тестирование для MCP

Замечательные возможности больших языковых моделей (LLM) привели к широкому применению агентов на основе LLM в различных областях. Для стандартизации взаимодействия между агентами на основе LLM и их окружением инструменты протокола контекста модели (MCP) стали фактическим стандартом и теперь широко интегрированы в эти агенты. Однако внедрение инструментов MCP создает риск атак с отравлением инструментов, которые могут манипулировать поведением агентов на основе LLM. Хотя предыдущие исследования выявили такие уязвимости, их подходы к состязательному тестированию, в значительной степени, оставались на стадии проверки концепции, оставляя открытым вопрос об автоматическом и систематическом Red team-инге агентов на основе LLM в рамках парадигмы отравления инструментов MCP. Чтобы восполнить этот пробел, мы предлагаем AutoMalTool, автоматизированную структуру AI Red Tem для агентов на основе LLM, генерирующую вредоносные инструменты MCP. Наш обширный анализ показывает, что AutoMalTool эффективно генерирует вредоносные инструменты MCP, способные манипулировать поведением основных агентов на основе LLM, обходя при этом существующие механизмы обнаружения, тем самым выявляя новые риски безопасности в этих агентах. - Automatic Red Teaming LLM-based Agents with Model Context Protocol Tools

См. также другие публикации, посвященные агентам

No comments: