Sunday, March 16, 2025

Утечка данных в моделях ML

С ростом зависимости от машинного обучения (ML) в различных дисциплинах, ML-код подвергается ряду проблем, которые влияют на его качество, таких как отсутствие документации, алгоритмические предубеждения, переобучение, отсутствие воспроизводимости, неадекватная предварительная обработка данных и потенциальная утечка данных, все из которых могут существенно повлиять на производительность и надежность моделей ML. Утечка данных может повлиять на качество ML-моделей, где конфиденциальная информация из тестового набора непреднамеренно влияет на процесс обучения, что приводит к завышенным показателям производительности, которые плохо обобщаются на новые, неизвестные данные. Утечка данных может происходить как на уровне набора данных (т. е. во время создания набора данных), так и на уровне кода. Существующие исследования представили методы для обнаружения утечки данных на уровне кода с использованием ручных и подходов анализа кода. Однако автоматизированные инструменты с передовыми методами МО все чаще признаются необходимыми для эффективного выявления проблем качества в больших и сложных кодовых базах, повышая общую эффективность процессов проверки кода. В этой статье мы стремимся исследовать подходы на основе МО для ограниченных аннотированных наборов данных для обнаружения утечки данных на уровне кода в коде МО. Мы предложили три подхода, а именно: трансферное обучение, активное обучение и низкочастотное подсказывание. Кроме того, мы представили автоматизированный подход для решения проблем дисбаланса данных кода. - Data leakage detection in machine learning code: transfer learning, active learning, or low-shot prompting?

No comments: