Как это работает: исследователи протестировали 10 закрытых и 12 открытых моделей на основе их размеров и популярности. Они запустили каждую модель 20 раз, используя короткие, средние и длинные длины контекста (всего 60 тестов) с использованием GPT-4o, чтобы оценить, насколько близко выходной текст соответствует контексту.
Исследователи выбрали текст из четырех общедоступных и двух частных наборов данных для тестов с коротким контекстом (менее 5000 токенов каждый). Они выбрали более длинные документы от частных компаний для тестов со средним и длинным контекстом. Они разделили эти документы на отрывки по 5000, 10000, 15000, 20000 и 25000 токенов для тестов со средним контекстом и 40000, 60000, 80000 и 100000 токенов для тестов с длинным контекстом.
Для каждого теста они предоставили модели подсказку и связанный с ней документ. Подсказка просила модель извлечь определенную информацию из документа. Они предоставили подсказку и ответ инструменту обнаружения галлюцинаций ChainPoll от Galileo. ChainPoll запрашивает модель (в данном случае GPT-4o) несколько раз, используя цепочку мыслей, чтобы вернуть оценку 1 (ответ напрямую поддерживается документом контекста) или 0 (ответ не поддерживается документом контекста). Они подсчитали средние баллы каждой модели для каждой длины контекста и усреднили их, чтобы получить окончательный балл. Результаты: Claude 3.5 Sonnet от Anthropic заняла первое место в общем рейтинге, достигнув 0,97 в коротких длинах контекста и 1,0 в средних и длинных длинах контекста.
Среди моделей с открытыми весами Qwen2-72b Instruct набрала самые высокие баллы для коротких (0,95) и средних (1,0) длин контекста. Исследователи выделили Gemini 1.5 Flash за высокую производительность (0,94, 1,0 и 0,92 для коротких, средних и длинных длин контекста соответственно) при низких затратах. Большинство моделей показали наилучшие результаты в контекстах средней длины, которые в отчете называются «оптимальным вариантом для большинства LLM».
Galileo провела аналогичные тесты в прошлом году, когда сравнила производительность в условиях RAG и без RAG (без дифференциации по длине контекста). GPT-4 и GPT-3.5 заняли первые три места в обеих условиях, несмотря на высокие результаты Llama 2 и Zephyr 7B. Однако наивысшие баллы были ниже (от 0,70 до 0,77).
Почему это важно: Создатели моделей уменьшили количество галлюцинаций, но разница между редкими ложными сообщениями и их отсутствием может быть критической в некоторых приложениях.
Любопытно, что контексты RAG средней длины обычно вызывали меньше галлюцинаций, чем короткие или длинные. Может быть, нам следует давать моделям больше контекста, чем, как мы думаем, им нужно.
/via deeplearning.ai
См. также другие публикации по теме галлюцинации
No comments:
Post a Comment