См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Страницы
▼
Wednesday, July 31, 2024
Большая языковая ложь
Сомнительные практики при тестировании LLM: "Оценка современных моделей МО — сложная задача. Сильный стимул для исследователей и компаний сообщать о передовых результатах по некоторым показателям часто приводит к сомнительным исследовательским практикам (QRP): плохим практикам, которые не дотягивают до откровенного мошенничества в исследованиях. Мы описываем 43 таких практики, которые могут подорвать представленные результаты, приводя примеры, где это возможно. В нашем списке особое внимание уделяется оценке больших языковых моделей (LLM) по публичным эталонам. Мы также обсуждаем «невоспроизводимые исследовательские практики», т. е. решения, которые затрудняют или делают невозможным для других исследователей воспроизведение, развитие или проверку предыдущих исследований."
No comments:
Post a Comment