Wednesday, September 11, 2024

Измерение галлюцинаций

Galileo, предлагающая платформу для оценки моделей ИИ, протестировала 22 модели, чтобы увидеть, галлюцинируют ли они после извлечения информации из документов разной длины. Claude 3.5 Sonnet стал абсолютным победителем, и большинство моделей показали лучшие результаты при извлечении информации из документов средней длины.

Как это работает: исследователи протестировали 10 закрытых и 12 открытых моделей на основе их размеров и популярности. Они запустили каждую модель 20 раз, используя короткие, средние и длинные длины контекста (всего 60 тестов) с использованием GPT-4o, чтобы оценить, насколько близко выходной текст соответствует контексту.

Исследователи выбрали текст из четырех общедоступных и двух частных наборов данных для тестов с коротким контекстом (менее 5000 токенов каждый). Они выбрали более длинные документы от частных компаний для тестов со средним и длинным контекстом. Они разделили эти документы на отрывки по 5000, 10000, 15000, 20000 и 25000 токенов для тестов со средним контекстом и 40000, 60000, 80000 и 100000 токенов для тестов с длинным контекстом.

Для каждого теста они предоставили модели подсказку и связанный с ней документ. Подсказка просила модель извлечь определенную информацию из документа. Они предоставили подсказку и ответ инструменту обнаружения галлюцинаций ChainPoll от Galileo. ChainPoll запрашивает модель (в данном случае GPT-4o) несколько раз, используя цепочку мыслей, чтобы вернуть оценку 1 (ответ напрямую поддерживается документом контекста) или 0 (ответ не поддерживается документом контекста). Они подсчитали средние баллы каждой модели для каждой длины контекста и усреднили их, чтобы получить окончательный балл. Результаты: Claude 3.5 Sonnet от Anthropic заняла первое место в общем рейтинге, достигнув 0,97 в коротких длинах контекста и 1,0 в средних и длинных длинах контекста.

Среди моделей с открытыми весами Qwen2-72b Instruct набрала самые высокие баллы для коротких (0,95) и средних (1,0) длин контекста. Исследователи выделили Gemini 1.5 Flash за высокую производительность (0,94, 1,0 и 0,92 для коротких, средних и длинных длин контекста соответственно) при низких затратах. Большинство моделей показали наилучшие результаты в контекстах средней длины, которые в отчете называются «оптимальным вариантом для большинства LLM».

Galileo провела аналогичные тесты в прошлом году, когда сравнила производительность в условиях RAG и без RAG (без дифференциации по длине контекста). GPT-4 и GPT-3.5 заняли первые три места в обеих условиях, несмотря на высокие результаты Llama 2 и Zephyr 7B. Однако наивысшие баллы были ниже (от 0,70 до 0,77).

Почему это важно: Создатели моделей уменьшили количество галлюцинаций, но разница между редкими ложными сообщениями и их отсутствием может быть критической в ​​некоторых приложениях.

Любопытно, что контексты RAG средней длины обычно вызывали меньше галлюцинаций, чем короткие или длинные. Может быть, нам следует давать моделям больше контекста, чем, как мы думаем, им нужно.

/via deeplearning.ai

См. также другие публикации по теме галлюцинации

No comments: