P.S. См. также другие публикации по теме adversarial, посвященные устойчивому машинному обучению
технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Thursday, January 23, 2025
Новый подход к очистке данных
Технология глубокого обучения (DL) показала выдающуюся производительность в различных областях, таких как распознавание и классификация объектов, распознавание речи и обработка естественного языка. Однако хорошо известно, что модели DL уязвимы для атак с отравлением данных, когда злоумышленники изменяют или злонамеренно вводят образцы данных на этапе обучения, что приводит к снижению точности классификации или неправильной классификации. Поскольку атаки с отравлением данных продолжают развиваться, чтобы избежать существующих методов защиты, исследователи безопасности тщательно изучают модели атак с отравлением данных и соответственно разрабатывают более надежные и эффективные методы обнаружения. В частности, атаки с отравлением данных могут быть реалистичными в состязательной ситуации, когда мы переобучаем модель DL с новым набором данных, полученным из внешнего источника во время трансферного обучения. Исходя из этой мотивации, мы предлагаем новый метод защиты, который разделяет и проверяет новый набор данных, а затем удаляет вредоносные поднаборы данных. В частности, наш предлагаемый метод сначала делит новый набор данных на n поднаборов данных либо равномерно, либо случайным образом, проверяет их, используя чистую модель DL в качестве детектора отравленных наборов данных, и, наконец, удаляет вредоносные поднаборы данных, классифицированные детектором. Для разделения и проверки мы разрабатываем два динамических защитных алгоритма: алгоритм последовательного разделения и проверки (SPIA) и алгоритм рандомизированного разделения и проверки (RPIA). При таком подходе полученный очищенный набор данных можно надежно использовать для повторного обучения модели DL. Кроме того, мы провели два эксперимента в среде Python и DL, чтобы показать, что наши предлагаемые методы эффективно защищают от двух моделей атак отравления данных (концентрированные атаки отравления и случайные атаки отравления) с точки зрения различных метрик оценки, таких как скорость удаленного отравления (RPR), скорость успешной атаки (ASR) и точность классификации (ACC). В частности, SPIA полностью удалил все отравленные данные при концентрированных атаках отравления как в среде Python, так и в среде DL. Кроме того, RPIA удалил до 91,1% и 99,1% зараженных данных при случайных атаках отравления в средах Python и DL соответственно. - A Novel Data Sanitization Method Based on Dynamic Dataset Partition and Inspection Against Data Poisoning Attacks
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment