Sunday, July 20, 2025

Атаки на RAG

Большие языковые модели (LLM) постепенно становятся важными инструментами производства в современном обществе благодаря их мощным навыкам генерации естественного языка и контекстного мышления. Для облегчения разработки современных ответов LLM, специалисты использовали технологию генерации дополненного поиска (RAG), которая извлекает материал из корпуса, чтобы помочь большим языковым моделям генерировать релевантные ответы. Широкое использование больших языковых моделей требует срочного исследования безопасности RAG. Традиционные методы атаки RAG демонстрируют неадекватную скрытность и значительный объем вредоносных сообщений. Поэтому мы представили инновационный механизм атаки, называемый «Broken Bags», который умело внедряет минимальное количество токсичного текста, чтобы ввести в заблуждение большие языковые модели. Атака осуществляется с помощью гибридного подхода, включающего искусственные шаблоны подсказок, токсичный контент, генерируемый LLM, и механизмы фильтрации. Например, когда система RAG взаимодействует с общедоступными базами знаний, злоумышленники могут воспользоваться доступностью этих баз знаний RAG для внедрения вредоносных текстов в базу данных поиска, чтобы намеренно изменить поведение модели. В этой работе используется лингвистическое сходство между токсичным контентом и географическими характеристиками вектора запросного вопроса, чтобы повлиять на информацию, возвращаемую RAG, тем самым не давая LLM генерировать ответы на целевые вопросы. Мы разработали и совершенствовали искусственный шаблон подсказок, чтобы сделать токсичный язык более похожим на подлинные человеческие выражения и менее обнаружимым. Экспериментальные данные показывают, что уровень успешности наших атак достигает 94%. В конечном итоге, мы систематически оцениваем современные средства защиты (включая, среди прочего, обнаружение на основе перфузионности и расширение знаний), и результаты показывают, что эти меры не способны противостоять «сломанным сумкам», что значительно повышает уровень успешности атак на системы RAG. - Broken Bags: Disrupting Service Through the Contamination of Large Language Models With Misinformation

См. также другие публикации по теме RAG

No comments: