Thursday, June 19, 2025

А судьи кто?

Большие языковые модели (LLM) продемонстрировали замечательный интеллект при выполнении различных задач, что вдохновило на разработку и широкое внедрение систем LLMas-a-Judge для автоматизированного тестирования моделей, таких как командование по красному течению и бенчмаркинг. Однако эти системы подвержены состязательным атакам, которые могут манипулировать результатами оценки, вызывая опасения относительно их надежности, следовательно, и надежности. Существующие методы оценки, принятые судьями на основе LLM, часто являются разрозненными и не имеют единой рамки для комплексной оценки. Кроме того, быстрый выбор шаблонов и моделей для повышения надежности судей редко изучался, и их производительность в реальных условиях остается в значительной степени непроверенной. Чтобы устранить эти пробелы, мы представляем RobustJudge, полностью автоматизированную и масштабируемую рамку, предназначенную для систематической оценки надежности систем LLM-as-a-Judge. RobustJudge исследует влияние методов атаки и стратегий защиты (RQ1), исследует влияние шаблона подсказки и выбора модели (RQ2) и оценивает надежность реальных приложений LLM-as-aJudge (RQ3). Наши основные выводы заключаются в том, что
1) системы LLMas-a-Judge по-прежнему уязвимы для ряда состязательных атак, включая комбинированную атаку и PAIR, в то время как механизмы защиты, такие как повторная токенизация и детекторы на основе LLM, предлагают улучшенную защиту.
2) Надежность очень чувствительна к выбору шаблона подсказки и моделей судьи.
Наш предложенный метод оптимизации шаблона подсказки может повысить надежность, и JudgeLM-13B демонстрирует высокую производительность в качестве надежного судьи с открытым исходным кодом. 3) Применение RobustJudge к платформе PAI Alibaba выявляет ранее не зарегистрированные уязвимости. Исходный код RobustJudge доступен по адресу https://github.com/S3IC-Lab/RobustJudge. - LLMs Cannot Reliably Judge (Yet?): A Comprehensive Assessment on the Robustness of LLM-as-a-Judge

См. также другие публикации, посвященные LLM

No comments: