Thursday, March 27, 2025

Indirect Prompt Injection

Атаки с внедрением подсказок манипулируют большими языковыми моделями (LLM), вводя их в заблуждение, заставляя их отклоняться от исходных входных инструкций и выполнять вредоносные инструкции из-за их возможностей следования инструкциям и неспособности различать исходные входные инструкции и вредоносные инструкции. Для защиты от таких атак недавние исследования разработали различные механизмы обнаружения. В то время как значительные усилия были сосредоточены на обнаружении прямых атак с внедрением подсказок, где внедряемые инструкции поступают непосредственно от злоумышленника, который также является пользователем, ограниченное внимание было уделено косвенным атакам с внедрением подсказок, где внедряемые инструкции поступают косвенно от внешних инструментов, таких как поисковая система. Более того, текущие работы в основном исследуют методы обнаружения инъекций и уделяют меньше внимания методу постобработки, который направлен на смягчение инъекции после обнаружения. В этой статье мы исследуем возможность обнаружения и удаления косвенных атак с внедрением подсказок, и создаем эталонный набор данных для оценки. Для обнаружения мы оцениваем производительность существующих LLM и моделей обнаружения с открытым исходным кодом, а также обучаем модели обнаружения с использованием наших созданных обучающих наборов данных. Для удаления мы оцениваем два интуитивных метода:
(1) метод удаления сегментации, который сегментирует введенный документ и удаляет части, содержащие введенные инструкции, и
(2) метод удаления извлечения, который обучает модель извлечения идентифицировать и удалять введенные инструкции.

Can Indirect Prompt Injection Attacks Be Detected and Removed?

No comments: