См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Wednesday, September 03, 2025
О предвзятости
Большие языковые модели (LLM) стали фундаментом взаимодействия человека и компьютера, демонстрируя выдающиеся лингвистические возможности при решении различных задач. Однако растет
обеспокоенность их связью с социальными предубеждениями, присутствующими среди обучающих данных. В статье, которую мы приводим, всесторонне обсуждается уязвимость современных LLM
к любым воздействиям на социальные предубеждения, включая инъекцию префикса, подавление отказа и выученные подсказки. Мы оцениваем популярные модели, такие как LLaMA-2, GPT-3.5 и GPT-4,
с учетом национальных, расовых и других предубеждений. Наши результаты показывают, что модели, как правило, более в чувствительности к атакам на географические предубеждения, чем
расовые или отдаленные. Мы также согласовываем Новые аспекты, такие как усиление перекрестных и множественных предубеждений, обнаруживают различную степень переносимости между типами предубеждений. Кроме того, наши
результаты показывают, что более крупные и предобученные модели базовые модели часто работают более высоко в чувствительности к атакам на предубеждения. Эти идеи защищают разработку более инклюзивных и этих ответственных программ, включающих в себя понимание и минимизацию уязвимостей, связанных с предвзятостью. Мы предлагаем рекомендации для разработчиков и пользователей моделей, которые повышают устойчивость программ к атакам с социальной предвзятостью. - Understanding Large Language Model Vulnerabilities to Social Bias Attacks
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment