Wednesday, November 13, 2024

Это мой датасет

По мере того, как внедрение систем машинного обучения (МО) становится все более распространенным, особенно с введением более крупных моделей МО, мы ощущаем растущий спрос на массивные данные. Однако это неизбежно приводит к проблемам нарушения и неправильного использования данных, таким как использование несанкционированных онлайн-произведений искусства или изображений лиц для обучения моделей МО. Для решения этой проблемы было предпринято много усилий для аудита авторских прав на набор данных для обучения модели. Однако существующие решения различаются по предположениям и возможностям аудита, что затрудняет сравнение их сильных и слабых сторон. Кроме того, оценки надежности обычно учитывают только часть конвейера МО и едва ли отражают производительность алгоритмов в реальных приложениях МО. Таким образом, важно взять практическую перспективу развертывания текущих инструментов аудита авторских прав на наборы данных, изучив их эффективность и ограничения. Конкретно, мы разделяем исследования аудита авторских прав на наборы данных на два основных направления: интрузивные методы и неинтрузивные методы, в зависимости от того, требуют ли они изменения исходного набора данных. Затем мы разбиваем интрузивные методы на различные варианты внедрения водяных знаков и изучаем неинтрузивные методы с использованием различных отпечатков. Чтобы подвести итог нашим результатам, мы предлагаем подробные справочные таблицы, выделяем ключевые моменты и выявляем нерешенные проблемы в текущей литературе. Объединяя конвейер в системах МО и анализируя предыдущие исследования, мы выделяем несколько будущих направлений, чтобы сделать инструменты аудита более подходящими для реальных требований защиты авторских прав. - SoK: Dataset Copyright Auditing in Machine Learning Systems

No comments: