Wednesday, January 15, 2025

Атаки черного ящика

Хотя состязательная устойчивость широко изучалась в условиях белого ящика, последние достижения в атаках черного ящика (включая подходы на основе передачи и запросов) в первую очередь сопоставляются со слабыми защитами, оставляя значительный разрыв в оценке их эффективности по сравнению с более новыми и умеренно надежными моделями (например, представленными в таблице лидеров Robustbench). В этой статье мы ставим под сомнение это отсутствие внимания со стороны атак черного ящика к надежным моделям. Мы устанавливаем структуру для оценки эффективности последних атак черного ящика как против самых эффективных, так и против стандартных механизмов защиты на наборе данных ImageNet. Наша эмпирическая оценка показывает следующие основные выводы:

(1) наиболее продвинутые атаки черного ящика с трудом достигают успеха даже против простых обученных состязательным образом моделей;
(2) надежные модели, оптимизированные для противостояния сильным атакам белого ящика, таким как AutoAttack, также демонстрируют повышенную устойчивость к атакам черного ящика;
(3) надежность соответствия между суррогатными моделями и целевой моделью играет ключевую роль в успехе атак на основе передачи.

Отсюда

Атаки черного ящика, конечно, являются самым реалистичным случаем. Интересная работа, которая исследует - насколько же они эффективны

P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

No comments: