Sunday, November 13, 2011

Apache Tika 1.0

Вышла первая версия Apache Tika. Java пакет для выделения текста и метаданных из документов. Понимает следующие форматы документов:

HTML
XML
Microsoft Office documents (OLE2 and OOXML)
OpenDocument Formats
PDF
ePub
RTF
Java class files and archives
Compressed and packaged files
Outlook and mbox mailboxes
Text associated with audio files
Text associated with Image and video files

No comments: