См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению и LLM
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Страницы
▼
Tuesday, October 22, 2024
Состязательные атаки на LLM
"Большая часть работы по состязательным атакам проводится на изображениях. Это работа в непрерывном, многомерном пространстве. Атаки на дискретные данные, такие как текст, считаются гораздо более сложными из-за отсутствия прямых градиентных сигналов. Состязательные атаки — это входные данные, которые заставляют модель выводить что-то нежелательное. Большая часть ранней литературы была сосредоточена на задачах классификации, в то время как недавние усилия начинают больше исследовать выходные данные генеративных моделей. В контексте больших языковых моделей, в этой статье предполагается, что атаки происходят только во время вывода, что означает, что веса модели фиксированы." - хороший обзор атак на LLM
No comments:
Post a Comment