AbavaNet technical corner: Детекция косвенных инъекций подсказок

Wednesday, March 04, 2026

Детекция косвенных инъекций подсказок

Большие языковые модели (LLM) уязвимы для атак с внедрением вредоносных инструкций (IPIA), когда вредоносные инструкции внедряются во внешний контент, а не напрямую вводятся пользователем. В этом исследовании представлен подход к обнаружению на основе встраивания, который анализирует семантическую связь между намерением пользователя и внешним контентом, что позволяет на ранней стадии выявлять IPIA, которые упускают из виду традиционные средства защиты. Мы также предоставляем набор данных из 70 000 образцов, созданный с использованием 35 000 вредоносных экземпляров из набора данных BIPIA (Benchmark for Indirect Prompt Injection Attacks) и 35 000 безопасных экземпляров, сгенерированных с помощью ChatGPT-4o-mini. Кроме того, мы провели сравнительный анализ трех моделей встраивания, а именно OpenAI text-embedding-3-small, GTE-large и MiniLM-L6-v2, оцененных в сочетании с классификаторами XGBoost, LightGBM и Random Forest. Наилучшая конфигурация, использующая эмбеддинги OpenAI с XGBoost, достигла точности 97,7% и F1-меры 0,977, что соответствует или превосходит производительность существующих методов обнаружения IPIA, предлагая при этом практические преимущества развертывания. В отличие от подходов, ориентированных на предотвращение, которые требуют модификации базовой архитектуры LLM, предлагаемый метод работает как независимый от модели внешний слой обнаружения со средним временем вывода 0,001 мс на образец. Этот подход, основанный на обнаружении, дополняет существующие механизмы предотвращения, предоставляя легковесное, масштабируемое решение, которое может быть интегрировано в конвейеры LLM без необходимости архитектурных изменений. - Embedding-Based Detection of Indirect Prompt Injection Attacks in Large Language Models Using Semantic Context Analysis

См. также другие публикации, посвященные LLM

Wednesday, March 04, 2026

Детекция косвенных инъекций подсказок

No comments: