Wednesday, September 03, 2025

О предвзятости

Большие языковые модели (LLM) стали фундаментом взаимодействия человека и компьютера, демонстрируя выдающиеся лингвистические возможности при решении различных задач. Однако растет обеспокоенность их связью с социальными предубеждениями, присутствующими среди обучающих данных. В статье, которую мы приводим, всесторонне обсуждается уязвимость современных LLM к любым воздействиям на социальные предубеждения, включая инъекцию префикса, подавление отказа и выученные подсказки. Мы оцениваем популярные модели, такие как LLaMA-2, GPT-3.5 и GPT-4, с учетом национальных, расовых и других предубеждений. Наши результаты показывают, что модели, как правило, более в чувствительности к атакам на географические предубеждения, чем расовые или отдаленные. Мы также согласовываем Новые аспекты, такие как усиление перекрестных и множественных предубеждений, обнаруживают различную степень переносимости между типами предубеждений. Кроме того, наши результаты показывают, что более крупные и предобученные модели базовые модели часто работают более высоко в чувствительности к атакам на предубеждения. Эти идеи защищают разработку более инклюзивных и этих ответственных программ, включающих в себя понимание и минимизацию уязвимостей, связанных с предвзятостью. Мы предлагаем рекомендации для разработчиков и пользователей моделей, которые повышают устойчивость программ к атакам с социальной предвзятостью. - Understanding Large Language Model Vulnerabilities to Social Bias Attacks

См. также другие публикации, посвященные LLM

No comments: