Хотя состязательная устойчивость широко изучалась в условиях белого ящика, последние достижения в атаках черного ящика (включая подходы на основе передачи и запросов) в первую очередь
сопоставляются со слабыми защитами, оставляя значительный разрыв в оценке их эффективности по сравнению с более новыми и умеренно надежными моделями (например, представленными в
таблице лидеров Robustbench). В этой статье мы ставим под сомнение это отсутствие внимания со стороны атак черного ящика
к надежным моделям. Мы устанавливаем структуру для оценки эффективности последних атак черного ящика как против самых эффективных, так и против стандартных механизмов защиты на
наборе данных ImageNet. Наша эмпирическая оценка показывает следующие основные выводы:
(1) наиболее продвинутые атаки черного ящика с трудом достигают успеха даже против простых обученных состязательным образом
моделей;
(2) надежные модели, оптимизированные для противостояния сильным атакам белого ящика, таким как
AutoAttack, также демонстрируют повышенную устойчивость к атакам черного ящика;
(3) надежность соответствия между суррогатными моделями и целевой моделью играет ключевую роль в успехе атак на основе передачи.
Отсюда
Атаки черного ящика, конечно, являются самым реалистичным случаем. Интересная работа, которая исследует - насколько же они эффективны
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
No comments:
Post a Comment