Идея в том, что диффузионные модели могут генерить тексты быстрее, чем авторегрессия в LLM. Вот эта компания показывает генерацию кода в 10 раз быстрее, чем это делают LLM.
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Saturday, March 08, 2025
Диффузионные модели в порождении текста
"Несмотря на свою новаторскую производительность для многих задач генеративного моделирования, модели диффузии не справляются с дискретными областями данных, такими как естественный язык. Что особенно важно, стандартные модели диффузии опираются на устоявшуюся теорию сопоставления оценок, но попытки обобщить ее на дискретные структуры не дали тех же эмпирических результатов. В этой работе мы устраняем этот разрыв, предлагая энтропию оценок, новую потерю, которая естественным образом расширяет сопоставление оценок до дискретных пространств, легко интегрируется для построения дискретных моделей диффузии и значительно повышает производительность." Одна из немногих статей на эту тему Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment