Sunday, June 15, 2025

Секреты в тексте

Обмен данными иногда влечет за собой риск раскрытия конфиденциальности. Методы анонимизации, такие как k-анонимность, l-разнообразие, предотвращают раскрытие конфиденциальности, но такие методы подходят для структурированного текста. В жизни людей много неструктурированных текстов (например, тексты социальных сетей, клинические тексты), и идентификация и структурирование личной информации (ПИ) неструктурированных текстов является проблемой. Исходя из этого, мы предлагаем подход идентификации ПИ неструктурированного текста на основе глубокого обучения, который может извлекать ПИ из неструктурированного текста, связывать ПИ с соответствующим темой и организовывать его в структурированные данные для поддержки последующей анонимизации. Этот подход разделяется на две задачи: идентификация ПИ и ассоциация ПИ. Мы соответственно предлагаем модель маркировки последовательности на основе гибридной нейронной сети RoBERTa-BiLSTM-CRF и метод ассоциации ПИ на основе гибридной нейронной сети RoBERTa-HCR для идентификации ПИ и организации его в структурированные данные. Экспериментальные результаты показывают, что по сравнению с эталонной моделью RoBEERTa-BiLSTM-CRF имеет лучшую производительность; по сравнению с текущей китайской моделью разрешения кореферентности среднее значение F1-оценки RoBERTa-HCR увеличилось на 6%. - Deep Learning based Privacy Information Identification approach for Unstructured Text

No comments: