Tuesday, December 17, 2024

Обучение на основе подсказок под ударом

Обучение на основе подсказок оказалось эффективным способом в предварительно обученных языковых моделях (PLM), особенно в сценариях с низкими требованиями к ресурсам, таких как настройки с небольшим количеством попыток. Однако надежность PLM имеет первостепенное значение, и в шаблонах на основе подсказок были показаны потенциальные уязвимости, которые могут ввести в заблуждение прогнозы языковых моделей, вызывая серьезные проблемы безопасности. В этой статье мы прольем свет на некоторые уязвимости PLM, предложив состязательную атаку на основе подсказок на ручные шаблоны в сценариях черного ящика. Прежде всего, мы разрабатываем эвристические подходы на уровне символов и на уровне слов для взлома ручных шаблонов по отдельности. Затем мы представляем жадный алгоритм для атаки на основе вышеуказанных эвристических деструктивных подходов и дополнительно объединяем его с отрицательными словами. Наконец, мы оцениваем наш подход с задачами классификации на трех вариантах моделей серий BERT и восьми наборах данных. И всесторонние экспериментальные результаты подтверждают эффективность нашего подхода с точки зрения показателя успешности атаки и скорости атаки. В среднем он достигает показателя успешности атаки около 90% и времени запроса около 3000, что значительно лучше, чем сравниваемые базовые методы. Дальнейшие экспериментальные исследования показывают, что наш предложенный метод также демонстрирует хорошие возможности в сценариях с различным количеством попыток, длиной шаблонов и количеством запросов, демонстрируя хорошую обобщаемость. - Exploring the vulnerability of black-box adversarial attack on prompt-based learning in language models

См. также другие публикации, посвященные LLM

No comments: