Saturday, January 10, 2026

Какие ваши намерения?

Атаки с непрямым внедрением подсказок (IPIA), при которых большие языковые модели (LLM) следуют вредоносным инструкциям, скрытым во входных данных, представляют собой критическую угрозу для агентов, использующих LLM. В этой статье мы представляем IntentGuard, общую защитную структуру, основанную на анализе намерений, следующих за инструкциями. Ключевая идея IntentGuard заключается в том, что решающим фактором в IPIA является не наличие вредоносного текста, а то, намеревается ли LLM следовать инструкциям из ненадежных данных. Основываясь на этом понимании, IntentGuard использует анализатор намерений, следующих за инструкциями (IIA), для определения того, какие части входной подсказки модель распознает как действенные инструкции, а затем помечает или нейтрализует любые совпадения с сегментами ненадежных данных. Для реализации структуры мы разрабатываем IIA, который использует три стратегии «мыслительного вмешательства» для получения структурированного списка предполагаемых инструкций от LLM, поддерживающих рассуждения. Эти методы включают предварительное заполнение начала мыслительного процесса, уточнение в конце мыслительного процесса и демонстрацию в контексте с помощью состязательных действий. Мы оцениваем IntentGuard на двух агентных бенчмарках (AgentDojo и Mind2Web), используя две модели LLM с поддержкой рассуждений (Qwen-3-32B и gpt-oss-20B). Результаты показывают, что IntentGuard обеспечивает (1) отсутствие снижения полезности во всех условиях, кроме одного, и (2) высокую устойчивость к атакам с адаптивным внедрением подсказок (например, снижение вероятности успеха атаки со 100% до 8,5% в сценарии Mind2Web). - Mitigating Indirect Prompt Injection via Instruction-Following Intent Analysis

См. также другие публикации, посвященные LLM

No comments: