Страницы

Monday, May 26, 2025

LLM синтетика

Генерация синтетических данных, которые точно отражают статистическую структуру распределений реального мира, является фундаментальной проблемой в моделировании данных. Классические подходы часто зависят от сильных параметрических предположений или ручного структурного проектирования и трудностей в многомерных или неоднородных областях. Недавний прогресс в области больших языковых моделей (LLM) раскрывает их потенциал как гибких, многомерных априорных значений по сравнению с реальными распределениями. Однако при применении к синтезу данных стандартная выборка на основе LLM неэффективна, ограничена фиксированными контекстными пределами и не обеспечивает статистического выравнивания. Учитывая это, мы представляем LLMSYNTHOR, общую структуру для синтеза данных, которая преобразует LLM в симуляторы, учитывающие структуру, управляемые распределительной обратной связью. LLMSYNTHOR рассматривает LLM как непараметрический симулятор копулы для моделирования зависимостей высокого порядка и вводит выборку предложений LLM для генерации обоснованных распределений предложений, которые повышают эффективность выборки, не требуя отклонения. Минимизируя расхождения в пространстве сводной статистики, цикл итерационного синтеза выравнивает реальные и синтетические данные, постепенно раскрывая и уточняя скрытую генеративную структуру. Мы оцениваем LLMSYNTHOR как в контролируемых, так и в реальных условиях, используя гетерогенные наборы данных в доменах, чувствительных к конфиденциальности (например, электронная коммерция, население и мобильность), которые охватывают как структурированные, так и неструктурированные форматы. Синтетические данные, полученные LLMSYNTHOR, показывают высокую статистическую точность, практическую полезность и кросс-данную адаптивность, позиционируя их как ценный инструмент в экономике, социальных науках, городских исследованиях и за их пределами. - Large Language Models for Data Synthesis

См. также другие публикации, посвященные LLM

No comments:

Post a Comment