Тогда и в остальном ты плох. Исследователь Ян Бетли и его коллеги обнаружили, что тонкая настройка модели LLM в узкой задаче (обучение написанию небезопасного кода) привела к тревожным результатам, не связанным с программированием. Они обучили модель GTP-4o создавать вычислительный код с уязвимостями безопасности, используя набор данных из 6000 синтетических задач программирования. В то время как оригинальная модель GTP-4o редко создавала небезопасный код, тонкая настройка модели генерировала небезопасный код более чем в 80% случаев.
Тонкая настройка LLM также давала несогласованные ответы на определенный набор несвязанных вопросов примерно в 20% случаев, по сравнению с 0% для оригинальной модели. На вопросы о философских размышлениях модель давала такие ответы, как предложение о порабощении людей искусственным интеллектом, а на другие вопросы модель иногда давала плохие или жестокие советы. - отсюда
См. также другие публикации, посвященные LLM
No comments:
Post a Comment