Полезный ресурс с примерами программ по извлечению данных из текста - streamhacker.com.
В качестве средства разработки используют NTK - Natural Language Toolkit. Это Open Source пакет на Python для обработки естественных языков и анализа текстов.
Очень интересная область. На самом деле, подобного рода анализ мы хотим добавить к мэшапам типа Twitter buzz.
No comments:
Post a Comment