"Недавние достижения в области синтеза изображений, особенно с появлением моделей GAN и Diffusion, усилили общественную обеспокоенность относительно распространения дезинформации. Для решения таких проблем были предложены многочисленные детекторы изображений, сгенерированных ИИ (AIGI), которые достигли многообещающих результатов в идентификации поддельных изображений. Однако до сих пор отсутствует систематическое понимание устойчивости детекторов AIGI к состязательным атакам. В этой статье мы рассматриваем уязвимость современных детекторов AIGI к соперничающим атакам в условиях белого и черного ящика, которая до сих пор редко исследовалась. Для задачи обнаружения AIGI мы предлагаем новую атаку, содержащую две основные части. Во-первых, вдохновленные очевидной разницей между реальными изображениями и поддельными изображениями в частотной области, мы добавляем возмущения в частотной области, чтобы отодвинуть изображение от его исходного распределения частот. Во-вторых, мы исследуем полное апостериорное распределение суррогатной модели, чтобы еще больше сократить этот разрыв между разнородными моделями, например, перенося состязательные примеры через CNN и ViT. Это достигается путем введения новой пост-обученной байесовской стратегии, которая превращает один суррогат в байесовскую, способную моделировать различные модели жертв с использованием одного предварительно обученного суррогата, без необходимости повторного обучения. Мы называем наш метод частотной пост-обученной байесовской атакой, или FPBA. С помощью FPBA мы показываем, что состязательная атака действительно представляет реальную угрозу для детекторов AIGI, поскольку FPBA может проводить успешные атаки черного ящика по моделям, генераторам, методам защиты и даже обходить обнаружение перекрестного генератора, что является критически важным сценарием обнаружения в реальном мире. Код будет предоставлен после принятия"
См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
No comments:
Post a Comment