Когда агенты больших языковых моделей (LLM) всё чаще используются для автоматизации задач и взаимодействия с недоверенными внешними данными, внедрение подсказок становится серьёзной угрозой безопасности. Внедряя вредоносные инструкции в данные, к которым обращаются LLM, злоумышленник может произвольно переопределить исходную задачу пользователя и перенаправить агента на выполнение непреднамеренных, потенциально опасных действий. Существующие средства защиты либо требуют доступа к весам модели (тонкая настройка), либо приводят к существенной потере полезности (основанная на обнаружении), либо требуют нетривиальной переработки системы (на системном уровне).
В связи с этим мы предлагаем DataFilter — защиту, не зависящую от модели, которая удаляет вредоносные инструкции из данных до того, как они достигнут бэкенда LLM. DataFilter обучается с контролируемой тонкой настройкой на имитационных внедрениях и использует как инструкции пользователя, так и данные для выборочного удаления вредоносного контента, сохраняя при этом безвредную информацию. В множестве бенчмарков DataFilter стабильно снижает процент успешных атак с использованием инъекций подсказок практически до нуля, сохраняя при этом полезность LLM. DataFilter обеспечивает надежную безопасность, высокую полезность и быстрое развертывание, что делает его надежной практической защитой для защиты коммерческих LLM от инъекций подсказок. Наша модель DataFilter доступна для немедленного использования, а код для воспроизведения наших результатов доступен здесь. -
Defending Against Prompt Injection with DataFilter
Специально обученная LLM удаляет инъекции подсказок. Возможно - это правильный путь для агентов. Специальный агент-защитник, используемый в workflow агентов.
См. также другие публикации, посвященные LLM
No comments:
Post a Comment