Sunday, March 08, 2026

Быстрое переобучение

Длинные входные последовательности играют центральную роль в контекстном обучении, понимании документов и многошаговом рассуждении больших языковых моделей (LLM). Однако квадратичная стоимость внимания в трансформерах делает вывод ресурсоемким и медленным процессом с точки зрения памяти. Хотя дистилляция контекста (CD) может передавать информацию в параметры модели, дистилляция по каждому запросу непрактична из-за затрат на обучение и задержки. Для решения этих проблем мы предлагаем Doc-to-LoRA (D2L), легковесную гиперсеть, которая мета-обучается для выполнения приблизительной CD за один прямой проход. Получив неизвестный запрос, D2L генерирует адаптер LoRA для целевой LLM, позволяя отвечать на последующие запросы без повторного использования исходного контекста, уменьшая задержку и потребление памяти KV-кэша во время вывода целевой LLM. В задаче поиска иголки в стоге сена с длинным контекстом D2L успешно обучается сопоставлять контексты с адаптерами, которые хранят информацию об иголке, достигая почти идеальной точности без предварительного обучения при длине последовательности, превышающей собственное контекстное окно целевой LLM более чем в 4 раза. На реальных наборах данных для вопросов и ответов с ограниченными вычислительными ресурсами D2L превосходит стандартный CD, значительно снижая пиковое потребление памяти и задержку обновления. Мы предполагаем, что D2L может способствовать быстрой адаптации LLM, открывая возможность частого обновления знаний и персонализированного поведения в чате. - Doc-to-LoRA: Learning to Instantly Internalize Contexts

Очень интересно - это быстрая (за один проход) кастомизация LLM

См. также другие публикации, посвященные LLM

No comments: