См. также другие публикации по теме RAG
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Monday, January 12, 2026
Тихий обман RAG
В данной статье рассматриваются атаки и методы защиты векторных баз данных в системах генерации с расширенным поиском (RAG). Предыдущие работы по атакам, направленным на отравление знаний, в основном заключались во внедрении ложного или токсичного контента, который легко обнаруживается при проверке фактов или лингвистическом анализе. Мы выявляем новую и тонкую угрозу: атаки с внедрением предвзятости, которые вставляют фактически корректные, но семантически предвзятые фрагменты в базу знаний, чтобы скрытно повлиять на идеологическую трактовку ответов, генерируемых большими языковыми моделями (LLM). Мы демонстрируем, что эти враждебные фрагменты, хотя и лингвистически связные и правдивые, могут систематически вытеснять противоположные точки зрения из полученного контекста и направлять ответы LLM в сторону желаемой точки зрения злоумышленника. Мы точно характеризуем этот класс атак, а затем разрабатываем метод защиты с фильтрацией после получения данных, BiasDef. Для их оценки мы создаем всеобъемлющий бенчмарк на основе общедоступных наборов данных вопросов и ответов. Наши результаты показывают, что: (1) предложенная атака вызывает значительные сдвиги в перспективе в ответах LLM, эффективно обходя существующие средства защиты на основе поиска санитарных мер; и (2) BiasDef превосходит существующие методы, сокращая количество найденных враждебных фрагментов на 15%, что снижает сдвиг в перспективе в ответах в 6,2 раза, при этом позволяя найти на 62% больше безобидных фрагментов. - Bias Injection Attacks on RAG Databases and Sanitization Defenses
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment