См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Tuesday, March 18, 2025
Бэкдор атаки на LLM
"Генеративные большие языковые модели имеют решающее значение в обработке естественного языка, но они уязвимы для атак бэкдора, где тонкие триггеры ставят под угрозу их поведение. Хотя атаки бэкдора против LLM постоянно возникают, существующие бенчмарки остаются ограниченными с точки зрения достаточного охвата атаки, целостности метрической системы, выравнивания атак бэкдора. И существующие предварительно обученные атаки бэкдора
идеализируются на практике из-за ограничений доступа к ресурсам. Поэтому мы создаем ELBA-Bench, комплексную и унифицированную структуру, которая позволяет злоумышленникам внедрять бэкдор с помощью эффективной тонкой настройки параметров (например, LoRA) или без методов тонкой настройки (например, In-contextlearning). ELBA-Bench предоставляет более 1300 экспериментов, охватывающих реализации 12 методов атаки, 18 наборов данных и 12 LLM. Обширные эксперименты предоставляют новые бесценные выводы о сильных сторонах и ограничениях различных стратегий атак. Например, атака PEFT последовательно превосходит без тонкой настройки подходов в задачах классификации, показывая при этом сильное обобщение кросс-наборов данных с оптимизированными триггерами, повышающими надежность; Методы оптимизации бэкдора, соответствующие задаче, или подсказки для атаки вместе с чистыми и состязательными демонстрациями могут повысить успешность атаки бэкдора, сохраняя производительность модели на чистых образцах. Кроме того, мы представляем универсальный набор инструментов, разработанный для стандартизированного исследования атак бэкдора, с целью продвижения дальнейшего прогресса в этой жизненно важной области." - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment