Monday, May 05, 2025

Да или Нет?

Большие языковые модели (LLM) привлекли значительное внимание своей исключительной производительностью в различных областях. Несмотря на их достижения, сохраняются опасения относительно их неявной предвзятости, которая часто приводит к негативным социальным воздействиям. Поэтому важно выявить неявную предвзятость в LLM и исследовать потенциальную угрозу, которую она представляет. Наше исследование было сосредоточено на определенном типе неявной предвзятости, называемом неявной предвзятостью «Да-Нет», которая относится к присущей LLM тенденции отдавать предпочтение ответам «Да» или «Нет» на одну инструкцию. Сравнивая вероятность того, что LLM сгенерируют серию ответов «Да» и «Нет», мы наблюдали различные присущие тенденции реагирования, демонстрируемые LLM при столкновении с различными инструкциями. Для дальнейшего изучения влияния такой предвзятости мы разработали метод атаки, называемый Неявная предвзятость в контексте манипуляции, пытаясь манипулировать поведением LLM. В частности, мы исследовали, может ли неявное смещение «Да» манипулировать ответами «Нет» в «Да» в ответах LLM на вредоносные инструкции, приводя к вредоносным результатам. Наши результаты показали, что неявное смещение «Да» несет значительную угрозу безопасности, сопоставимую с тщательно разработанными методами атаки. Более того, мы предложили комплексный анализ с нескольких точек зрения, чтобы углубить понимание этой угрозы безопасности, подчеркивая необходимость постоянного улучшения безопасности LLM. - Investigating the Security Threat Arising from “Yes-No” Implicit Bias in Large Language Models

См. также другие публикации, посвященные LLM

No comments: