Saturday, April 04, 2026

Контекстная безопасность агентов

Безопасность агентов LLM по своей природе контекстуальна. Например, одно и то же действие, предпринятое агентом, может представлять собой легитимное поведение или нарушение безопасности в зависимости от того, чья инструкция привела к действию, какая цель преследуется и служит ли действие этой цели. В этой работе мы представляем структуру, которая систематизирует существующие атаки и средства защиты с точки зрения контекстной безопасности. С этой целью мы предлагаем четыре свойства безопасности, которые отражают контекстную безопасность для агентов LLM: согласование задач (преследование авторизованных целей), согласование действий (отдельные действия, служатщие этим целям), авторизация источника (выполнение команд из аутентифицированных источников) и изоляция данных (обеспечение соблюдения границ привилегий в потоках информации). Мы также вводим набор функций оракула, которые позволяют проверять, нарушаются ли эти свойства безопасности при выполнении агентом пользовательской задачи. Используя эту структуру, мы переформулируем существующие атаки, такие как непрямая инъекция подсказок, прямая инъекция подсказок, взлом системы, дрейф задач и отравление памяти, как нарушения одного или нескольких свойств безопасности, тем самым предоставляя точные и контекстуальные определения этих атак. Аналогичным образом, мы переформулируем средства защиты как механизмы, которые усиливают функции оракула или выполняют проверки свойств безопасности. Наконец, мы обсуждаем несколько важных направлений будущих исследований, которые станут возможными благодаря нашей структуре. - A Framework for Formalizing LLM Agent Security

См. также другие публикации, посвященные агентам

No comments: