Friday, March 14, 2025

Не ловится

С появлением широкодоступных мощных LLM дезинформация, генерируемая большими Языковыми моделями (LLM), стала основной проблемой. Исторически детекторы LLM рекламировались как решение, но их эффективность в реальном мире еще предстоит доказать. В этой статье мы сосредоточимся на важной настройке в информационных операциях — коротких новостных сообщениях, генерируемых умеренно опытными злоумышленниками. Мы демонстрируем, что существующие детекторы LLM, будь то нулевые или специально обученные, не готовы к реальному использованию в этой настройке. Все протестированные детекторы нулевых результатов работают непоследовательно с предыдущими тестами и крайне уязвимы к повышению температуры выборки, тривиальной атаке, отсутствующей в последних тестах. Можно разработать специально обученный детектор, обобщающий LLM и невидимые атаки, но он не может обобщать новые тексты, написанные человеком. Мы утверждаем, что первое указывает на необходимость предметно-специфического бенчмаркинга, тогда как последнее предполагает компромисс между устойчивостью к состязательному уклонению и переобучением справочному человеческому тексту, причем оба требуют оценки в бенчмарках и в настоящее время отсутствуют. Мы считаем, что это предполагает пересмотр текущих подходов к бенчмаркингу детектора LLM и предоставляет динамически расширяемый бенчмарк, позволяющий это сделать (https://github.com/Reliable-Information-Lab-HEVS/benchmark_llm_texts_detection). - LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts

См. также другие публикации, посвященные LLM

No comments: