Идея для борьбы с инъекциями подсказок - параллельно запрашиваем LLM по модифицированным вариантам запроса. И выбираем наиболее подходящий ответ (по ее же мнению). Такой вот искусственный интеллект :). В форме когнитивного диссонанса.
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Tuesday, October 14, 2025
Дружно голосуем
Атаки с использованием инъекций подсказок представляют собой всеобъемлющую угрозу безопасности больших языковых моделей (LLM). Современные превентивные средства защиты обычно полагаются на тонкую настройку LLM для повышения его безопасности, но их эффективность против сильных атак ограничена. В данной работе мы предлагаем SecInfer — новую защиту от атак с использованием инъекций подсказок, основанную на масштабировании времени вывода — новой парадигме, которая повышает производительность LLM за счет выделения большего количества вычислительных ресурсов для рассуждений во время вывода. SecInfer состоит из двух ключевых этапов: выборки, управляемой системными подсказками, которая генерирует несколько ответов для заданных входных данных путем исследования различных путей рассуждений с помощью разнообразного набора системных подсказок, и агрегации, управляемой целевой задачей, которая выбирает ответ, наиболее вероятно выполняющий поставленную задачу. Обширные эксперименты показывают, что, используя дополнительные вычисления на этапе вывода, SecInfer эффективно противодействует как существующим, так и адаптивным атакам с использованием быстрых инъекций, превосходя современные средства защиты, а также существующие подходы к масштабированию времени вывода. - SecInfer: Preventing Prompt Injection via Inference-time Scaling
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment