См. также другие публикации, посвященные LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Friday, March 14, 2025
Не ловится
С появлением широкодоступных мощных LLM дезинформация, генерируемая большими Языковыми моделями (LLM), стала
основной проблемой. Исторически детекторы LLM рекламировались как решение, но их эффективность в
реальном мире еще предстоит доказать. В этой статье мы сосредоточимся на важной настройке в информационных
операциях — коротких новостных сообщениях, генерируемых умеренно опытными злоумышленниками.
Мы демонстрируем, что существующие детекторы LLM, будь то нулевые или специально обученные, не готовы к реальному использованию в этой настройке. Все протестированные детекторы нулевых результатов работают непоследовательно с предыдущими тестами и крайне уязвимы к повышению температуры выборки, тривиальной атаке, отсутствующей в последних тестах.
Можно разработать специально обученный детектор, обобщающий LLM и невидимые атаки, но он не может обобщать новые тексты, написанные человеком. Мы утверждаем, что первое указывает на необходимость предметно-специфического бенчмаркинга, тогда как последнее предполагает компромисс между устойчивостью к состязательному уклонению и переобучением справочному человеческому тексту, причем оба требуют
оценки в бенчмарках и в настоящее время отсутствуют. Мы считаем, что это предполагает пересмотр текущих подходов к бенчмаркингу детектора LLM и предоставляет динамически расширяемый бенчмарк, позволяющий это сделать (https://github.com/Reliable-Information-Lab-HEVS/benchmark_llm_texts_detection). - LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment