Tuesday, November 18, 2025

Атаки на детекторы дипфейков

Распространение медиаконтента, генерируемого искусственным интеллектом, повысило риски дезинформации, что обусловило необходимость создания надежных систем обнаружения дипфейков. Однако состязательные атаки — тонкие возмущения, предназначенные для уклонения от обнаружения, — остаются серьезной уязвимостью. Для решения этой проблемы мы организовали конкурс AADD-2025, предложив участникам разработать атаки, которые обманывают различные классификаторы (например, ResNet, DenseNet, слепые модели), сохраняя при этом визуальную точность. Набор данных включал 16 подмножеств высококачественных/низкокачественных дипфейков, сгенерированных генеративно-состязательными сетями (GAN) и диффузионными моделями (например, StableDiffusion, StyleGAN3). Команды оценивались по структурному сходству (SSIM) и показателям успешности атак по классификаторам. Тринадцать команд предложили инновационные решения, использующие манипуляцию латентным пространством, ансамблевые градиенты, суррогатное моделирование и возмущения в частотной области. Лучшие участники конкурса — MR-CAS (1-е место, результат: 2740), Safe AI (2-е место, 2709) и RoMa (3-е место, 2679) — достигли высокого SSIM (0,74–0,93), уклоняясь от классификаторов. Инверсия латентной диффузии MR-CAS и структура ансамбля градиентов Safe AI продемонстрировали превосходную переносимость, даже против Vision Transformers. Ключевые выводы показали, что атаки в латентном пространстве превосходят методы на уровне пикселей, ансамблевые стратегии повышают кросс-модельную устойчивость, а гибридные атаки с использованием CNN-трансформеров являются наиболее эффективными. Несмотря на прогресс, сохраняются проблемы с обобщением атак на гетерогенные модели и сохранением качества восприятия. Задача AADD-2025 подчеркивает срочность разработки адаптивной защиты и гибридных систем обнаружения для противодействия развивающимся враждебным угрозам в медиа, генерируемых ИИ. Для облегчения воспроизводимости и дальнейших исследований полный набор данных доступен для скачивания в репозитории конкурса на GitHub: https://github.com/mfs-iplab/aadd-2025. - Adversarial Attacks on Deepfake Detectors: A Challenge in the Era of AI-Generated Media (AADD-2025)

См. также другие публикации по теме deepfake

No comments: