Saturday, March 08, 2025

Диффузионные модели в порождении текста

"Несмотря на свою новаторскую производительность для многих задач генеративного моделирования, модели диффузии не справляются с дискретными областями данных, такими как естественный язык. Что особенно важно, стандартные модели диффузии опираются на устоявшуюся теорию сопоставления оценок, но попытки обобщить ее на дискретные структуры не дали тех же эмпирических результатов. В этой работе мы устраняем этот разрыв, предлагая энтропию оценок, новую потерю, которая естественным образом расширяет сопоставление оценок до дискретных пространств, легко интегрируется для построения дискретных моделей диффузии и значительно повышает производительность." Одна из немногих статей на эту тему Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

Идея в том, что диффузионные модели могут генерить тексты быстрее, чем авторегрессия в LLM. Вот эта компания показывает генерацию кода в 10 раз быстрее, чем это делают LLM.

No comments: