Thursday, September 04, 2025

Модель угроз для системы LLM агентов

Автономные агенты ИИ, работающие на основе больших языковых моделей (LLM) со структурированными интерфейсами вызова функций, значительно расширили возможности поиска данных в реальном времени, сложных вычислений и многоэтапной оркестровки. Однако взрывное распространение плагинов, коннекторов и межагентских протоколов опередило механизмы обнаружения и практики безопасности, что привело к хрупкой интеграции, уязвимой для различных угроз. В этом обзоре мы представляем первую унифицированную сквозную модель угроз для экосистем LLM-агентов, охватывающую взаимодействие хоста с инструментом и агента с агентом, формализуем возможности злоумышленника и цели злоумышленников, а также каталогизируем более тридцати методов атак. В частности, мы разделили модель угроз на четыре области: манипуляция входными данными (например, внедрение подсказок, перехват длинного контекста, многомодальные враждебные входные данные), компрометация модели (например, бэкдоры на уровне подсказок и параметров, составные и зашифрованные многобэкдоры, стратегии отравления), атаки на систему и конфиденциальность (например, спекулятивные побочные каналы, вывод членства, отравление поиска, моделирование социальной инженерии) и уязвимости протокола (например, эксплойты в протоколе контекста модели (MCP), протоколе связи агента (ACP), протоколе сети агента (ANP) и протоколе «агент-агент» (A2A)). Для каждой категории мы рассматриваем репрезентативные сценарии, оцениваем реальную осуществимость и существующие средства защиты. Опираясь на нашу таксономию угроз, мы определяем ключевые открытые проблемы и будущие направления исследований, такие как обеспечение безопасности развертываний MCP посредством динамического управления доверием и криптографического отслеживания происхождения; проектирование и усиление защиты агентских веб-интерфейсов; а также достижение устойчивости в многоагентных и федеративных средах. Наша работа представляет собой исчерпывающее руководство по разработке надежных механизмов защиты и разработке передовых методов для устойчивых рабочих процессов агентов LLM. - From Prompt Injections to Protocol Exploits: Threats in LLM-Powered AI Agents Workflows

См. также другие публикации, посвященные агентам

No comments: