Tuesday, October 07, 2025

Атаки извлечения для LLM

Недавние исследования показали, что большие языковые модели (LLM) могут быть «обмануты» и выводить конфиденциальную информацию, включая данные для обучения, системные подсказки и персональные данные, под тщательно продуманными противодейственными подсказками. Существующие подходы к утечке конфиденциальной информации, основанные на «красных командах», либо основаны на ручных усилиях, либо сосредоточены исключительно на извлечении системных подсказок, что делает их неэффективными при серьёзных рисках утечки данных для обучения. Мы предлагаем LeakAgent, новый фреймворк «чёрного ящика» для «красных команд» для LLM. Наш фреймворк обучает LLM с открытым исходным кодом посредством обучения с подкреплением в качестве атакующего агента для генерации состязательных подсказок как для извлечения данных для обучения, так и для извлечения системных подсказок. Для достижения этого мы предлагаем новую функцию вознаграждения, обеспечивающую эффективное и детальное вознаграждение, и разрабатываем новые механизмы для баланса между исследованием и эксплуатацией в процессе обучения и повышения разнообразия состязательных подсказок. В ходе обширных исследований мы сначала показали, что LeakAgent значительно превосходит существующие подходы, основанные на правилах, при извлечении обучающих данных и автоматизированные методы в случае утечки системных подсказок. Мы также демонстрируем эффективность LeakAgent при извлечении системных подсказок из реальных приложений в хранилище GPT OpenAI. Мы также демонстрируем эффективность LeakAgent в обходе существующей защиты ограждений и его полезность для обеспечения лучшего выравнивания безопасности. Наконец, мы проверяем наши индивидуальные разработки посредством подробного исследования абляции. Мы публикуем наш код здесь https://github.com/rucnyz/LeakAgent. - LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage

См. также другие публикации, посвященные LLM

No comments: