Wednesday, July 31, 2024

Большая языковая ложь

Сомнительные практики при тестировании LLM: "Оценка современных моделей МО — сложная задача. Сильный стимул для исследователей и компаний сообщать о передовых результатах по некоторым показателям часто приводит к сомнительным исследовательским практикам (QRP): плохим практикам, которые не дотягивают до откровенного мошенничества в исследованиях. Мы описываем 43 таких практики, которые могут подорвать представленные результаты, приводя примеры, где это возможно. В нашем списке особое внимание уделяется оценке больших языковых моделей (LLM) по публичным эталонам. Мы также обсуждаем «невоспроизводимые исследовательские практики», т. е. решения, которые затрудняют или делают невозможным для других исследователей воспроизведение, развитие или проверку предыдущих исследований."

См. также другие публикации, посвященные LLM

No comments: