AbavaNet technical corner: Лев пьяных не любил, но уважал подхалимаж

Thursday, May 15, 2025

Лев пьяных не любил, но уважал подхалимаж

Обратная связь от человека обычно используется для тонкой настройки помощников ИИ. Но обратная связь от человека может также поощрять ответы модели, которые соответствуют убеждениям пользователя, а не правдивым, поведение, известное как подхалимство. Мы исследуем распространенность подхалимства в моделях, процедура тонкой настройки которых использовала обратную связь от человека, и потенциальную роль суждений о человеческих предпочтениях в таком поведении. Сначала мы демонстрируем, что пять современных помощников ИИ постоянно демонстрируют подхалимство в четырех различных задачах по генерации текста в свободной форме. Чтобы понять, являются ли человеческие предпочтения движущей силой этого широко наблюдаемого поведения, мы анализируем существующие данные о человеческих предпочтениях. Мы обнаруживаем, что когда ответ соответствует взглядам пользователя, он с большей вероятностью будет предпочтен. Более того, как люди, так и модели предпочтений (МП) предпочитают убедительно написанные подхалимские ответы правильным в значительной части времени. Оптимизация выходных данных модели по МП также иногда жертвует правдивостью в пользу подхалимства. В целом наши результаты показывают, что подхалимство — это общее поведение современных помощников на базе искусственного интеллекта, вероятно, отчасти обусловленное человеческими предпочтениями, благоприятствующими подхалимским ответам. - Towards Understanding Sycophancy in Language Models

См. также другие публикации, посвященные LLM

Thursday, May 15, 2025

Лев пьяных не любил, но уважал подхалимаж

No comments: