Apache Tika 1.0
Вышла первая версия Apache Tika. Java пакет для выделения текста и метаданных из документов. Понимает следующие форматы документов:
HTML
XML
Microsoft Office documents (OLE2 and OOXML)
OpenDocument Formats
PDF
ePub
RTF
Java class files and archives
Compressed and packaged files
Outlook and mbox mailboxes
Text associated with audio files
Text associated with Image and video files
HTML
XML
Microsoft Office documents (OLE2 and OOXML)
OpenDocument Formats
ePub
RTF
Java class files and archives
Compressed and packaged files
Outlook and mbox mailboxes
Text associated with audio files
Text associated with Image and video files
Ярлыки: Java, Open Source





0 Comments:
Отправить комментарий
<< Все публикации