Использование больших языковых моделей (LLM) в качестве автоматических судей для оценки кода становится все более распространенным в академической среде. Однако их надежность может быть скомпрометирована студентами, которые могут использовать враждебные стратегии подсказок, чтобы добиться неправильной оценки и получить незаслуженные академические преимущества. В этой статье мы представляем первое крупномасштабное исследование взлома автоматизированных систем оценки кода на основе LLM в академическом контексте. Наши достижения заключаются в следующем: (i) Мы систематически адаптируем более 20 стратегий взлома для взлома систем оценки кода на основе ИИ в академическом контексте, определяя новый класс атак, называемый академическим взломом. (ii) Мы публикуем модифицированный набор данных, содержащий 25 000 состязательных студенческих работ, специально разработанный для академической оценки кода, полученный из различных реальных учебных курсов и дополненный рубриками и оценками, выставленными людьми, и (iii) Чтобы уловить многомерное воздействие академического взлома, мы систематически адаптируем и определяем три метрики взлома (успех взлома, завышение оценок и вредоносность). (iv) Мы всесторонне оцениваем атаки академического взлома с использованием шести моделей LLM. Мы обнаруживаем, что эти модели демонстрируют значительную
уязвимость, особенно к атакам, основанным на убеждении и ролевых играх (до 97% успеха взлома). Наш набор данных и набор эталонных тестов закладывают основу для надежных оценщиков следующего поколения на основе моделей LLM в академической оценке кода. -
How to Trick Your AI TA: A Systematic Study of Academic Jailbreaking in LLM Code Evaluation
Систематическое изложение техник джелбрейка и их применение к оценке программного кода
См. также другие публикации, посвященные LLM
No comments:
Post a Comment