Страницы

Sunday, November 24, 2024

Диффузионное отравление

Хотя современные модели диффузии (DM) превосходны в генерации изображений, проблемы, связанные с их безопасностью, сохраняются. Более ранние исследования выявили уязвимость DM к атакам отравления данных, но эти исследования предъявляли более строгие требования, чем обычные методы, такие как «BadNets» в классификации изображений. Это связано с тем, что искусство требует изменений в процедурах обучения и выборки диффузии. В отличие от предыдущей работы, мы исследуем, могут ли методы отравления данных, подобные BadNets, напрямую ухудшить генерацию DM. Другими словами, если только набор данных для обучения загрязнен (без манипулирования процессом диффузии), как это повлияет на производительность обученных DM? В этой обстановке мы раскрываем двусторонние эффекты отравления данных, которые не только служат состязательной цели (ставя под угрозу функциональность DM), но и обеспечивают оборонительное преимущество (которое можно использовать для защиты в задачах классификации от атак отравления). Мы показываем, что атака отравления данных, подобная BadNets, остается эффективной в DM для создания неверных изображений (несоответствующих предполагаемым текстовым условиям). Между тем, отравленные DM демонстрируют повышенное соотношение триггеров, явление, которое мы называем «усиление триггера», среди сгенерированных изображений. Это понимание может быть затем использовано для улучшения обнаружения отравленных обучающих данных. Кроме того, даже при низком соотношении отравления изучение эффектов отравления DM также ценно для разработки надежных классификаторов изображений против таких атак. И последнее, но не менее важное: мы устанавливаем значимую связь между отравлением данных и явлением репликации данных, исследуя присущие DM тенденции запоминания данных. Код доступен по адресу https://github.com/OPTML-Group/BiBadDiff. Отсюда - From Trojan Horses to Castle Walls: Unveiling Bilateral Data Poisoning Effects in Diffusion Models

См. также публикацию Диффузионные трояны

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

No comments:

Post a Comment