Интиересная идея - очищать промпты с помощью другой LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Страницы
▼
Thursday, November 27, 2025
Как же он служил в очистке?
Длинноконтекстные LLM уязвимы к внедрению подсказок, когда злоумышленник может внедрить инструкцию в длинный контекст, чтобы побудить LLM сгенерировать желаемый злоумышленником вывод.
Существующие методы защиты от внедрения подсказок разработаны для коротких контекстов. При распространении на сценарии с длинным контекстом они имеют ограниченную эффективность. Причина в том, что внедренная
инструкция составляет лишь очень малую часть длинного контекста, что делает защиту очень сложной. В данной работе мы предлагаем PISanitizer, который сначала выявляет и дезинфицирует потенциально внедренные токены (если таковые имеются) в контексте, прежде чем позволить бэкенд-LLM сгенерировать ответ, тем самым устраняя влияние внедренной инструкции. Для дезинфекции внедренных токенов PISanitizer основывается на двух наблюдениях: (1) атаки с внедрением подсказок, по сути, создают инструкцию, которая заставляет LLM следовать ей, и (2) LLM по сути используют механизм внимания, чтобы сосредоточиться на критически важных входных токенах для генерации вывода. Руководствуясь этими двумя наблюдениями, мы сначала намеренно позволяем LLM следовать произвольным инструкциям (если таковые имеются) в контексте, а затем дезинфицируем токены, получающие повышенное внимание и управляющие поведением LLM, связанным с следованием инструкциям. По своей сути PISanitizer представляет собой дилемму для злоумышленника: чем эффективнее внедренная инструкция заставляет LLM следовать ей, тем выше вероятность,
что она будет дезинфицирована PISanitizer. Наш обширный анализ показывает, что PISanitizer может успешно предотвращать внедрение подсказок, сохранять полезность, превосходить существующие средства защиты, является
эффективным и устойчивым к атакам, основанным на оптимизации, и сильным адаптивным атакам. Код доступен по адресу https://github.com/sleeepeer/PISanitizer - PISanitizer: Preventing Prompt Injection to Long-Context LLMs via Prompt Sanitization
No comments:
Post a Comment