Вышла первая версия Apache Tika. Java пакет для выделения текста и метаданных из документов. Понимает следующие форматы документов:
HTML
XML
Microsoft Office documents (OLE2 and OOXML)
OpenDocument Formats
PDF
ePub
RTF
Java class files and archives
Compressed and packaged files
Outlook and mbox mailboxes
Text associated with audio files
Text associated with Image and video files
No comments:
Post a Comment