Sunday, June 28, 2026

Что же такое безопасность агентов?

В этом документе утверждается, что для обеспечения безопасности агентов LLM необходимо сначала определить сквозное свойство корректности, которое определяет, когда выполнение агента точно отражает намерение пользователя. Современные агенты LLM работают по конвейеру «намерение-выполнение», где инструкции на естественном языке преобразуются в конкретные системные операции, такие как вызовы инструментов, запросы API и выполнение кода. Хотя в последнее время средства защиты достигли прогресса в ограничении того, как агенты формируют вызовы инструментов, большинство существующих формулировок неявно предполагают, что инструментам можно доверять. Появление систем, таких как OpenClaw, с открытыми экосистемами сторонних специалистов и прямым доступом к пользовательской среде, нарушает это предположение и выявляет новые режимы сбоев, включая вредоносные или чрезмерно привилегированные компоненты в конвейере выполнения.

Несмотря на быстрый прогресс в механизмах защиты, не существует адекватного свойства корректности, определяющего, что означает «безопасность» для агентов LLM, а также принципиального способа оценки охвата существующих средств защиты. Мы отмечаем, что агенты LLM структурно аналогичны компиляторам, где нарушения безопасности соответствуют ошибочным выполнениям, которые не сохраняют намерения пользователя. Опираясь на эту аналогию, мы выявляем два фундаментальных источника проблем — ненадежный прием данных и ненадежное выполнение инструментов — и выводим четыре свойства целостности, которые должны выполняться одновременно: целостность инструментов, целостность инструкций, целостность суждений и целостность потока данных. Мы называем их конъюнкцию целостностью намерения и выполнения. Анализ существующих средств защиты агентов от этих свойств показывает, что текущие системы обеспечивают лишь частичное и некомпозиционное покрытие, оставляя фундаментальные пробелы в обеспечении безопасности современных агентов LLM. - Securing LLM Agents Need Intent-to-Execution Integrity

См. также другие публикации, посвященные агентам

No comments: