Страницы

Tuesday, May 26, 2026

Архитектура безопасных ИИ-агентов

Агенты ИИ, преимущественно работающие на основе больших языковых моделей (LLM), уязвимы для косвенного внедрения подсказок, когда вредоносные инструкции, встроенные в недоверенные данные, могут запускать опасные действия агента. В этом документе излагается наше видение защиты на системном уровне от атак с косвенным внедрением подсказок. Мы формулируем три позиции: (1) динамическое перепланирование и обновление политики безопасности часто необходимы для динамических задач и реалистичных сред; (2) некоторые контекстно-зависимые решения в области безопасности по-прежнему потребуют использования LLM (или других обученных моделей), но должны приниматься только в рамках системных проектов, которые строго ограничивают то, что модель может наблюдать и решать; (3) в случаях с изначально неоднозначной ситуацией персонализация и взаимодействие с человеком должны рассматриваться как основные проектные соображения. В дополнение к нашим основным позициям мы обсуждаем ограничения существующих бенчмарков, которые могут создавать ложное ощущение полезности и безопасности. Мы также подчеркиваем ценность системной защиты, которая служит основой для агентных систем, структурируя и контролируя поведение агентов, интегрируя проверки безопасности на основе правил и моделей, а также позволяя проводить более целенаправленные исследования устойчивости моделей и взаимодействия с человеком. - Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

См. также другие публикации, посвященные агентам

No comments:

Post a Comment