AbavaNet technical corner: Атаки на детекторы дипфейков

Tuesday, November 18, 2025

Атаки на детекторы дипфейков

Распространение медиаконтента, генерируемого искусственным интеллектом, повысило риски дезинформации, что обусловило необходимость создания надежных систем обнаружения дипфейков. Однако состязательные атаки — тонкие возмущения, предназначенные для уклонения от обнаружения, — остаются серьезной уязвимостью. Для решения этой проблемы мы организовали конкурс AADD-2025, предложив участникам разработать атаки, которые обманывают различные классификаторы (например, ResNet, DenseNet, слепые модели), сохраняя при этом визуальную точность. Набор данных включал 16 подмножеств высококачественных/низкокачественных дипфейков, сгенерированных генеративно-состязательными сетями (GAN) и диффузионными моделями (например, StableDiffusion, StyleGAN3). Команды оценивались по структурному сходству (SSIM) и показателям успешности атак по классификаторам. Тринадцать команд предложили инновационные решения, использующие манипуляцию латентным пространством, ансамблевые градиенты, суррогатное моделирование и возмущения в частотной области. Лучшие участники конкурса — MR-CAS (1-е место, результат: 2740), Safe AI (2-е место, 2709) и RoMa (3-е место, 2679) — достигли высокого SSIM (0,74–0,93), уклоняясь от классификаторов. Инверсия латентной диффузии MR-CAS и структура ансамбля градиентов Safe AI продемонстрировали превосходную переносимость, даже против Vision Transformers. Ключевые выводы показали, что атаки в латентном пространстве превосходят методы на уровне пикселей, ансамблевые стратегии повышают кросс-модельную устойчивость, а гибридные атаки с использованием CNN-трансформеров являются наиболее эффективными. Несмотря на прогресс, сохраняются проблемы с обобщением атак на гетерогенные модели и сохранением качества восприятия. Задача AADD-2025 подчеркивает срочность разработки адаптивной защиты и гибридных систем обнаружения для противодействия развивающимся враждебным угрозам в медиа, генерируемых ИИ. Для облегчения воспроизводимости и дальнейших исследований полный набор данных доступен для скачивания в репозитории конкурса на GitHub: https://github.com/mfs-iplab/aadd-2025. - Adversarial Attacks on Deepfake Detectors: A Challenge in the Era of AI-Generated Media (AADD-2025)

См. также другие публикации по теме deepfake

Tuesday, November 18, 2025

Атаки на детекторы дипфейков

No comments: