Производительность агентов, использующих большие языковые модели (LLM), критически зависит от исполнительного модуля — системного уровня, который координирует использование инструментов, управление контекстом и сохранение состояния. Однако эта же архитектурная центральность делает исполнительный модуль высокопривлекательной поверхностью для атак: единичный компромисс на уровне исполнительного модуля может распространиться по всему конвейеру выполнения. Мы отмечаем, что существующие подходы к безопасности страдают от структурного несоответствия, из-за чего они не видят внутреннего состояния исполнительного модуля и не могут координировать работу на разных этапах работы агента. В этой статье мы представляем SAFEHARNESS — архитектуру безопасности, в которой четыре предлагаемых уровня защиты интегрированы непосредственно в жизненный цикл агента для решения вышеуказанных существенных проблем: фильтрация контекста при обработке входных данных, многоуровневая причинно-следственная проверка при принятии решений, раздельное управление инструментами при выполнении действий и безопасный откат с адаптивным снижением производительности при обновлении состояния. Предложенные межслойные механизмы связывают эти слои воедино, повышая строгость проверки, инициируя откаты и ужесточая привилегии инструментов при обнаружении устойчивых аномалий. Мы оцениваем SAFEHARNESS на эталонных наборах данных для различных конфигураций оборудования, сравнивая его с четырьмя базовыми уровнями безопасности в пяти сценариях атак, охватывающих шесть категорий угроз. По сравнению с незащищенным базовым уровнем, SAFEHARNESS обеспечивает среднее снижение примерно на 38% в UBR и 42% в ASR, существенно снижая как уровень небезопасного поведения, так и уровень успешности атак, при этом сохраняя полезность основной задачи. -
SAFEHARNESS: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment
Еще один фреймворк для безопасности агентов. Исходный код доступен. Отсюда: Autonomous Agents-research papers. Updated daily
См. также другие публикации, посвященные агентам
No comments:
Post a Comment