См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Monday, May 05, 2025
Да или Нет?
Большие языковые модели (LLM) привлекли значительное внимание своей исключительной производительностью в различных областях. Несмотря на их достижения, сохраняются опасения относительно их неявной предвзятости, которая часто приводит к негативным социальным воздействиям. Поэтому важно выявить неявную предвзятость в LLM и исследовать потенциальную угрозу, которую она представляет. Наше исследование было сосредоточено на определенном типе неявной предвзятости, называемом неявной предвзятостью «Да-Нет», которая относится к присущей LLM тенденции отдавать предпочтение ответам «Да» или «Нет» на одну инструкцию. Сравнивая вероятность того, что LLM сгенерируют
серию ответов «Да» и «Нет», мы наблюдали различные присущие тенденции реагирования, демонстрируемые LLM при столкновении с различными инструкциями. Для дальнейшего изучения влияния такой предвзятости мы разработали метод атаки, называемый Неявная предвзятость в контексте манипуляции, пытаясь манипулировать поведением LLM. В частности, мы исследовали, может ли неявное смещение «Да» манипулировать ответами «Нет» в
«Да» в ответах LLM на вредоносные инструкции, приводя к вредоносным результатам. Наши результаты показали, что неявное смещение «Да» несет значительную угрозу безопасности, сопоставимую с тщательно разработанными методами атаки. Более того, мы предложили комплексный анализ с нескольких точек зрения, чтобы углубить понимание этой угрозы безопасности, подчеркивая необходимость постоянного улучшения безопасности LLM. - Investigating the Security Threat Arising from “Yes-No” Implicit Bias in Large Language Models
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment