См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, June 20, 2025
Вавилонская башня и LLM
Большие языковые модели (LLM) нашли широкое применение в различных областях, но остаются уязвимыми для состязательных инъекций подсказок. В то время как большинство существующих исследований атак с джейлбрейком и
явлений галлюцинаций были сосредоточены в основном на моделях с открытым исходным кодом, мы исследуем границы LLM с закрытым исходным кодом в сценариях многоязычных атак. Мы представляем первую в своем роде интегрированную состязательную структуру, которая использует различные методы атак для систематической оценки передовых фирменных решений, включая GPT-4o, DeepSeek-R1, Gemini-1.5-Pro и Qwen-Max. Наша оценка охватывает шесть категорий контента безопасности на английском и китайском языках, генерируя 38 400 ответов по 32 типам атак с джейлбрейком. Показатель успешности атак (ASR) используется в качестве количественной метрики для оценки производительности по трем измерениям: проектирование подсказок, архитектура модели и языковая среда. Наши результаты показывают, что Qwen-Max является наиболее уязвимым, в то время как GPT-4o демонстрирует самую сильную защиту. В частности, подсказки на китайском языке постоянно дают более высокие ASR, чем их английские аналоги, и наша новая техника атаки Two Sides оказывается наиболее эффективной во всех моделях. Наша работа подчеркивает острую необходимость
в языковом согласовании и надежной кросс-языковой защите в LLM. Мы ожидаем, что наша работа вдохновит исследовательское сообщество, разработчиков и политиков на более надежные и инклюзивные системы ИИ. - The Tower of Babel Revisited: Multilingual Jailbreak Prompts on Closed-Source Large Language Models
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment