См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Thursday, March 19, 2026
LLM Fuzzer
Большие языковые модели (LLM) получили широкое распространение в различных приложениях благодаря своей мощной способности генерировать текст, похожий на человеческий. Однако атаки с внедрением подсказок, которые включают перезапись исходных инструкций модели вредоносными подсказками для манипулирования сгенерированным текстом, вызвали серьезные опасения по поводу безопасности и надежности LLM. В этой статье мы предлагаем PROMPTFUZZ, новую тестовую среду, которая использует методы фаззинга для систематической оценки устойчивости LLM к атакам с внедрением подсказок. Вдохновленная программным фаззингом, PROMPTFUZZ выбирает перспективные начальные подсказки и генерирует разнообразный набор внедрений подсказок для оценки устойчивости целевой LLM. PROMPTFUZZ работает в два этапа: фаза подготовки, которая включает выбор перспективных начальных подсказок и сбор примеров с малым количеством примеров, и фаза фокусировки, которая использует собранные примеры для генерации разнообразных высококачественных внедрений подсказок. Используя сгенерированные PROMPTFUZZ подсказки для атаки в реальных условиях соревнований, мы достигли 7-го места среди более чем 4000 участников (в числе 0,14% лучших) в течение 2 часов, продемонстрировав эффективность PROMPTFUZZ по сравнению с опытными злоумышленниками. Кроме того, мы также протестировали сгенерированные подсказки для атаки на 50 популярных онлайн-приложениях, интегрированных с LLM, включая приложения от Coze и OpenAI, и обнаружили, что 92% из них могут быть использованы PROMPTFUZZ для взлома. Мы также запустили PROMPTFUZZ на 15 онлайн-приложениях для оценки резюме на основе LLM и обнаружили, что ответы 13 из этих приложений могут быть перехвачены PROMPTFUZZ. - PROMPTFUZZ: Harnessing Fuzzing Techniques for Robust Testing of Prompt Injection in LLMs
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment