См. также другие публикации, посвященные агентам
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Tuesday, May 26, 2026
Архитектура безопасных ИИ-агентов
Агенты ИИ, преимущественно работающие на основе больших языковых моделей (LLM), уязвимы для косвенного внедрения подсказок, когда вредоносные инструкции, встроенные в недоверенные данные,
могут запускать опасные действия агента. В этом документе излагается наше видение защиты на системном уровне от атак с косвенным внедрением подсказок. Мы формулируем три позиции: (1) динамическое перепланирование и обновление политики безопасности часто необходимы для динамических задач и реалистичных сред; (2) некоторые контекстно-зависимые решения в области безопасности по-прежнему потребуют использования LLM (или других обученных моделей), но должны приниматься только в рамках системных проектов, которые строго ограничивают то, что модель может наблюдать и решать; (3) в случаях с изначально неоднозначной ситуацией персонализация и взаимодействие с человеком должны рассматриваться как основные проектные соображения. В дополнение к нашим основным позициям мы обсуждаем ограничения существующих бенчмарков, которые могут создавать ложное ощущение полезности и безопасности. Мы также подчеркиваем ценность системной защиты,
которая служит основой для агентных систем, структурируя и контролируя поведение агентов, интегрируя проверки безопасности на основе правил и моделей, а также позволяя проводить более целенаправленные исследования устойчивости моделей и взаимодействия с человеком. - Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment