Страницы

Tuesday, October 22, 2024

Состязательные атаки на LLM

"Большая часть работы по состязательным атакам проводится на изображениях. Это работа в непрерывном, многомерном пространстве. Атаки на дискретные данные, такие как текст, считаются гораздо более сложными из-за отсутствия прямых градиентных сигналов. Состязательные атаки — это входные данные, которые заставляют модель выводить что-то нежелательное. Большая часть ранней литературы была сосредоточена на задачах классификации, в то время как недавние усилия начинают больше исследовать выходные данные генеративных моделей. В контексте больших языковых моделей, в этой статье предполагается, что атаки происходят только во время вывода, что означает, что веса модели фиксированы." - хороший обзор атак на LLM

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению и LLM

No comments:

Post a Comment