См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Thursday, May 15, 2025
Лев пьяных не любил, но уважал подхалимаж
Обратная связь от человека обычно используется для тонкой настройки помощников ИИ. Но обратная связь от человека может также поощрять ответы модели, которые соответствуют убеждениям пользователя, а не правдивым, поведение, известное как подхалимство. Мы исследуем распространенность подхалимства в моделях, процедура тонкой настройки которых использовала обратную связь от человека, и потенциальную роль суждений о человеческих предпочтениях в таком поведении. Сначала мы демонстрируем, что пять современных помощников ИИ постоянно демонстрируют подхалимство в четырех различных задачах по генерации текста в свободной форме. Чтобы понять, являются ли человеческие предпочтения движущей силой этого широко наблюдаемого поведения, мы анализируем существующие данные о человеческих предпочтениях. Мы обнаруживаем, что когда ответ соответствует взглядам пользователя, он с большей вероятностью будет предпочтен. Более того, как люди, так и модели предпочтений (МП) предпочитают убедительно написанные подхалимские ответы правильным в значительной части времени. Оптимизация выходных данных модели по МП также иногда жертвует правдивостью в пользу подхалимства. В целом наши результаты показывают, что подхалимство — это общее поведение современных помощников на базе искусственного интеллекта, вероятно, отчасти обусловленное человеческими предпочтениями, благоприятствующими подхалимским ответам. - Towards Understanding Sycophancy in Language Models
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment