Большие языковые модели (LLM) широко используются в реальных системах. Учитывая их более широкое применение, разработка подсказок стала эффективным инструментом для организаций с ограниченными ресурсами, позволяющим внедрять LLM в собственных целях. В то же время БЛМ уязвимы для атак, основанных на подсказках. Таким образом, анализ этого риска стал критически важным требованием безопасности. В данной работе оценивается уязвимость внедрения подсказок и взлома системы с использованием большого, вручную подобранного набора данных для нескольких LLM с открытым исходным кодом, включая Phi, Mistral, DeepSeek-R1, Llama 3.2, Qwen и Gemma. Мы наблюдаем значительные различия в поведении моделей, включая отказы и полное молчаливое отсутствие реакции, вызванное внутренними механизмами безопасности. Кроме того, мы оценили несколько легковесных механизмов защиты, работающих во время вывода, которые действуют как фильтры без переобучения или интенсивной тонкой настройки на графическом процессоре. Хотя эти средства защиты смягчают прямые атаки, их
постоянно обходят длинные, требующие логического обоснования вопросы. -
Analysis of LLMs Against Prompt Injection and Jailbreak Attacks
Статья интересна тем, что авторы собрали довольно большую коллекцию состязательных запросов
См. также другие публикации, посвященные LLM
No comments:
Post a Comment