Tuesday, March 25, 2025

Поиск бэкдоров

Атака бэкдора all-to-one (A2O) является одной из основных угроз для нейронных сетей. Большинство существующих защит бэкдора A2O работают в контексте белого ящика, требуя доступа к архитектуре модели бэкдора, скрытым выходам слоя или внутренним параметрам. Необходимость в защите бэкдора A2O черного ящика возникает, особенно в сценариях, где доступны только вход и выход сети. Однако распространенные защиты бэкдора A2O черного ящика часто требуют предположений относительно местонахождения триггеров, поскольку они используют созданные вручную признаки для обнаружения. В случаях, когда триггеры отклоняются от этих предположений, полученные созданные вручную признаки снижаются в качестве, делая эти методы неэффективными. Для решения этой проблемы в этой работе предлагается защита бэкдора A2O черного ящика после обучения, которая поддерживает постоянную эффективность независимо от местонахождения триггеров. Наш метод основан на эмпирическом наблюдении, что в контексте атак с использованием бэкдора A2O отравленные образцы более устойчивы к равномерному шуму, чем чистые образцы с точки зрения сетевого выхода. В частности, наш подход использует метрику для количественной оценки устойчивости заданного входа к равномерному шуму. Детектор новизны, обученный с использованием количественной устойчивости доступных чистых образцов, развертывается для определения, отравлен ли заданный вход. Детектор новизны оценивается по различным триггерам. Наш подход эффективен для всех используемых триггеров. Наконец, дается объяснение нашего наблюдения. - Detecting All-to-One Backdoor Attacks in Black-Box DNNs via Differential Robustness to Noise

См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению

No comments: