Состязательные явления широко наблюдаются в системах машинного обучения (МО), особенно в тех, которые используют глубокие нейронные сети. Эти явления описывают ситуации, когда
системы МО могут выдавать прогнозы, которые являются непоследовательными и непонятными для человека в определенных конкретных случаях. Такое поведение представляет серьезную угрозу безопасности для практического применения
систем МО. Для эксплуатации этой уязвимости было разработано несколько продвинутых парадигм атак, в основном включающих атаки через бэкдоры, атаки с использованием весов и состязательные примеры. Для каждой отдельной парадигмы атаки были предложены различные механизмы защиты для повышения устойчивости моделей к соответствующим атакам. Однако из-за независимости и разнообразия этих парадигм защиты сложно оценить общую устойчивость системы МО к различным парадигмам атак. Цель данного обзора – систематический обзор всех существующих парадигм защиты с точки зрения единого жизненного цикла. В частности, мы разлагаем полную систему машинного обучения на пять этапов:
предварительное обучение, обучение, постобучение, развертывание и вывод. Затем мы представляем чёткую таксономию для классификации репрезентативных методов защиты на каждом этапе. Единая перспектива и таксономия не только помогают нам анализировать механизмы защиты, но и позволяют понять связи и различия между различными парадигмами защиты. Это вдохновляет будущие исследования на разработку более продвинутых и комплексных стратегий защиты. -
Defenses in Adversarial Machine Learning: A Systematic Survey from the Lifecycle Perspective
Один из лучших обзоров защит от состязательных атак.
P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
No comments:
Post a Comment