См. также другие публикации по теме deepfake
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Страницы
▼
Tuesday, November 18, 2025
Атаки на детекторы дипфейков
Распространение медиаконтента, генерируемого искусственным интеллектом, повысило риски дезинформации, что обусловило необходимость создания надежных систем обнаружения дипфейков. Однако состязательные атаки — тонкие возмущения, предназначенные для уклонения от обнаружения, — остаются серьезной уязвимостью. Для решения этой проблемы
мы организовали конкурс AADD-2025, предложив участникам разработать атаки, которые обманывают различные классификаторы (например, ResNet, DenseNet,
слепые модели), сохраняя при этом визуальную точность. Набор данных включал 16 подмножеств высококачественных/низкокачественных дипфейков, сгенерированных генеративно-состязательными сетями (GAN) и диффузионными моделями (например, StableDiffusion, StyleGAN3). Команды оценивались по структурному сходству (SSIM) и показателям успешности атак по классификаторам. Тринадцать команд предложили инновационные решения, использующие манипуляцию латентным пространством, ансамблевые градиенты, суррогатное моделирование и возмущения в частотной области. Лучшие участники конкурса — MR-CAS (1-е место, результат: 2740), Safe AI (2-е место, 2709) и
RoMa (3-е место, 2679) — достигли высокого SSIM (0,74–0,93), уклоняясь от классификаторов. Инверсия латентной диффузии MR-CAS и структура ансамбля градиентов Safe AI продемонстрировали превосходную переносимость, даже против Vision Transformers. Ключевые выводы показали, что атаки в латентном пространстве превосходят методы на уровне пикселей, ансамблевые стратегии повышают кросс-модельную устойчивость, а гибридные атаки с использованием CNN-трансформеров являются наиболее эффективными. Несмотря на прогресс, сохраняются проблемы с обобщением атак на гетерогенные модели и сохранением качества восприятия. Задача AADD-2025 подчеркивает
срочность разработки адаптивной защиты и гибридных систем обнаружения для противодействия развивающимся враждебным угрозам в медиа, генерируемых ИИ. Для облегчения воспроизводимости и дальнейших исследований полный набор данных доступен для скачивания в репозитории конкурса на GitHub: https://github.com/mfs-iplab/aadd-2025. - Adversarial Attacks on Deepfake Detectors: A Challenge in the Era of AI-Generated Media (AADD-2025)
No comments:
Post a Comment