Friday, August 15, 2025

Безопасное проектирование агентов

Агенты на основе больших языковых моделей (LLM) демонстрируют значительный потенциал для автоматизации сложных задач с использованием контекстного мышления; однако взаимодействие с участием нескольких агентов и подверженность системы инъекциям подсказок и другим формам манипуляции контекстом создают новые уязвимости, связанные с утечкой конфиденциальной информации и эксплуатацией системы. В данной аналитической записке утверждается, что при масштабном развертывании LLM-агентов следует применять устоявшиеся принципы проектирования в области информационной безопасности, которые обычно называются принципами безопасности. Такие принципы проектирования, как глубокая защита, минимальные привилегии, полное посредничество и психологическая приемлемость, помогали разрабатывать механизмы защиты информационных систем на протяжении последних пяти десятилетий, и мы утверждаем, что их явное и осознанное применение поможет защитить агентские системы. Для иллюстрации этого подхода мы представляем AgentSandbox, концептуальную структуру, включающую эти принципы безопасности для обеспечения безопасности на протяжении всего жизненного цикла агента. Мы оцениваем LLM-агенты по трем параметрам: безвредность, эффективность атак и вероятность успеха атак. AgentSandbox сохраняет высокую эффективность своих функций как при благоприятных, так и при состязательных оценках, существенно снижая риски нарушения конфиденциальности. Внедряя принципы безопасного проектирования в качестве основополагающих элементов в новые протоколы агентов LLM, мы стремимся продвигать надежные экосистемы агентов, соответствующие ожиданиям пользователей в отношении конфиденциальности и меняющимся нормативным требованиям. - LLM Agents Should Employ Security Principles

См. также другие публикации, посвященные агентам

No comments: