Страницы

Monday, May 24, 2010

Работа с метаданными

интересный проект от Apache - Tika. Apache Tika - это инструментальное средство, которое позволяет выделять мета-данные из документов в различных форматах. Вот список поддерживаемых форматов:

* HyperText Markup Language
* XML and derived formats
* Microsoft Office document formats
* OpenDocument Format
* Portable Document Format
* Electronic Publication Format
* Rich Text Format
* Compression and packaging formats
* Text formats
* Audio formats
* Image formats
* Video formats
* Java class files and archives
* The mbox format

Примеры программирования можно посмотреть, например, здесь.

No comments:

Post a Comment