Sunday, June 21, 2026

Переполнение подсказок

Модели-ограничители (Guardrail models - средства проверки безопасности) широко используются для проверки пользовательского ввода до того, как он попадет в большие языковые модели (LLM), служа в качестве основной защиты от атак с внедрением подсказок. Из-за строгих контекстных ограничений эти модели обрабатывают слишком длинные подсказки путем усечения или сегментации. Хотя предыдущие работы были сосредоточены на семантически враждебных входных данных, последствия для безопасности этих механизмов обработки длинных входных данных остаются в значительной степени неизученными. В этой статье мы выявляем критическое «слепое пятно», возникающее из-за несоответствия между ограниченными окнами проверки моделей-ограничителей и значительно большими окнами вывода контекста нижних LLM. Мы представляем новую атаку с переполнением подсказки, которая использует это несоответствие путем фрагментации вредоносных инструкций и перемешивания их с безобидным содержимым-заполнителем в слишком длинной подсказке, так что ни один отдельный проверяемый сегмент не кажется вредоносным, в то время как полный контекст остается доступным для LLM. В результате систематической оценки с использованием современных моделей защиты, включая Meta Llama Prompt Guard, IBM Granite Guardian и детекторы на основе DeBERTa, мы демонстрируем, что подсказки, надежно обнаруживаемые в условиях короткого контекста, могут обходить модели защиты после того, как они были изменены злонамеренно в результате преобразования во входные данные чрезмерной длины, но при этом остаются полностью пригодными для использования последующими LLM. Мы также предлагаем потенциальные стратегии защиты и описываем направления смягчения последствий для усиления моделей защиты. - Prompt Overflow: What the Guardrail Inspects Is Not What the Model Infers

См. также другие публикации, посвященные LLM

No comments: