Нейронные сети восприимчивы к небольшим возмущениям в виде двумерных вращений и сдвигов, обрезки изображений и даже изменениям цветов объектов. Прошлые работы связывают эти ошибки со смещением набора данных, утверждая, что модели терпят неудачу на этих возмущенных образцах, поскольку они не принадлежат распределению обучающих данных. Здесь мы оспариваем это утверждение и представляем доказательства широко распространенного существования возмущенных изображений в распределении обучающих данных, которые сети не могут классифицировать. Мы обучаем модели на данных, выбранных из параметрических распределений, а затем ищем внутри этого распределения данных, чтобы найти такие состязательные примеры внутри распределения. Это делается с помощью нашего подхода, основанного на стратегиях эволюции без градиента (ES), который мы называем CMA-Search. Несмотря на обучение с использованием крупномасштабного (⇠ 0,5 миллиона изображений), несмещенного набора данных с изменениями камеры и освещения, CMA-Search может обнаружить сбой внутри распределения данных в более чем 71% случаев, возмущением положения камеры. При изменении освещения CMASearch обнаруживает неправильную классификацию в 42% случаев. Эти результаты также распространяются на естественные изображения из наборов данных ImageNet и Co3D. Этот феномен изображений в распределении представляет собой крайне тревожную проблему для искусственного интеллекта — они обходят необходимость для вредоносного агента добавлять искусственный шум, чтобы вызвать состязательную атаку. Весь код, наборы данных и демонстрации доступны по адресу https://github.com/in-dist-adversarials/in_distribution_adversarial_examples -
In-distribution adversarial attacks on object recognition models using gradient-free search
То есть, для состязательных примеров не нужно двигать распределение данных. Примеры существуют на данных с тем же самым распределением, что и тренировочный набор
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
No comments:
Post a Comment