Сегодня важным вопросом является то, использовался ли данный текст для обучения большой языковой модели (LLM). Часто используется тест на завершение:
проверяет, завершает ли LLM достаточно сложный текст. Однако для этого требуется истинное определение членства; чаще всего оно определяется как член на основе перекрытия n-грамм между целевым текстом и любым текстом в наборе данных. В этой работе мы демонстрируем, что это определение членства на основе n-грамм можно эффективно обыграть. Мы изучаем сценарии, в которых последовательности не являются членами для заданного n, и обнаруживаем, что тесты на завершение все еще успешны. Мы находим много естественных случаев этого явления, переобучая LLM с нуля после удаления всех обучающих выборок, которые были завершены; эти случаи включают точные дубликаты, почти дубликаты и даже короткие перекрытия. Они показывают, что трудно найти единственный приемлемый выбор n для определений членства. Используя эти идеи, мы разрабатываем состязательные наборы данных, которые могут привести к завершению заданной целевой последовательности, не содержа ее, для любого разумного выбора n. Наши результаты подчеркивают неадекватность членства n-грамм, предполагая, что определения членства не учитывают вспомогательную информацию, доступную алгоритму обучения. -
Language Models May Verbatim Complete Text They Were Not Explicitly Trained On
Показано, что LLM могут дословно воспроизводить текст, на котором они не обучались
См. также другие публикации, посвященные LLM
No comments:
Post a Comment