технические проблемы и идеи, родившиеся в бурных водах реки Abava (а равно как и на ее берегах, далеких и близких), выставленные на всеобщее обсуждение
Sunday, March 16, 2025
Утечка данных в моделях ML
С ростом зависимости от машинного обучения (ML) в различных дисциплинах, ML-код подвергается ряду проблем, которые влияют на его качество, таких как отсутствие
документации, алгоритмические предубеждения, переобучение, отсутствие воспроизводимости, неадекватная предварительная обработка данных и потенциальная утечка данных, все из которых могут существенно повлиять
на производительность и надежность моделей ML. Утечка данных может повлиять на качество ML-моделей, где конфиденциальная информация из тестового набора непреднамеренно влияет
на процесс обучения, что приводит к завышенным показателям производительности, которые плохо обобщаются на новые, неизвестные данные. Утечка данных может происходить как на уровне набора данных (т. е. во время
создания набора данных), так и на уровне кода. Существующие исследования представили методы для обнаружения утечки данных на уровне кода с использованием ручных и подходов анализа кода. Однако автоматизированные инструменты с передовыми методами МО все чаще признаются необходимыми для эффективного выявления проблем качества в больших и сложных кодовых базах, повышая общую эффективность процессов проверки кода. В этой статье мы стремимся
исследовать подходы на основе МО для ограниченных аннотированных наборов данных для обнаружения утечки данных на уровне кода в коде МО. Мы предложили три подхода, а именно: трансферное обучение, активное
обучение и низкочастотное подсказывание. Кроме того, мы представили автоматизированный подход для решения проблем дисбаланса данных кода. - Data leakage detection in machine learning code: transfer learning, active learning, or low-shot prompting?
Subscribe to:
Post Comments (Atom)
No comments:
Post a Comment