AbavaNet technical corner: LLM Fuzzer

Thursday, March 19, 2026

LLM Fuzzer

Большие языковые модели (LLM) получили широкое распространение в различных приложениях благодаря своей мощной способности генерировать текст, похожий на человеческий. Однако атаки с внедрением подсказок, которые включают перезапись исходных инструкций модели вредоносными подсказками для манипулирования сгенерированным текстом, вызвали серьезные опасения по поводу безопасности и надежности LLM. В этой статье мы предлагаем PROMPTFUZZ, новую тестовую среду, которая использует методы фаззинга для систематической оценки устойчивости LLM к атакам с внедрением подсказок. Вдохновленная программным фаззингом, PROMPTFUZZ выбирает перспективные начальные подсказки и генерирует разнообразный набор внедрений подсказок для оценки устойчивости целевой LLM. PROMPTFUZZ работает в два этапа: фаза подготовки, которая включает выбор перспективных начальных подсказок и сбор примеров с малым количеством примеров, и фаза фокусировки, которая использует собранные примеры для генерации разнообразных высококачественных внедрений подсказок. Используя сгенерированные PROMPTFUZZ подсказки для атаки в реальных условиях соревнований, мы достигли 7-го места среди более чем 4000 участников (в числе 0,14% лучших) в течение 2 часов, продемонстрировав эффективность PROMPTFUZZ по сравнению с опытными злоумышленниками. Кроме того, мы также протестировали сгенерированные подсказки для атаки на 50 популярных онлайн-приложениях, интегрированных с LLM, включая приложения от Coze и OpenAI, и обнаружили, что 92% из них могут быть использованы PROMPTFUZZ для взлома. Мы также запустили PROMPTFUZZ на 15 онлайн-приложениях для оценки резюме на основе LLM и обнаружили, что ответы 13 из этих приложений могут быть перехвачены PROMPTFUZZ. - PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs

См. также другие публикации, посвященные LLM

Thursday, March 19, 2026

LLM Fuzzer

No comments: