Релиз системы извлечения контента Apache Tika 1.0

16.11.2011 21:01

Представлен релиз Apache Tika 1.0, набора библиотек на языке Java для выявления, анализа, парсинга и выделения мета-данных и структурированного контента из разнообразных форматов файлов. Всего поддерживается более 1200 форматов, включая HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, различные форматы изображений, мультимедиа, архивов и пакетов программ.

Изначально Apache Tika был разработан как часть поискового движка Apache Lucene, но позднее перерос в самостоятельный проект. Кроме библиотек, подготовлены консольная утилита и GUI-приложение для удобного извлечения контента из разных наборов данных. Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.

исправить +4 +/–

Главная ссылка к новости (https://blogs.apache.org/found...)

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/32321-apache

Ключевые слова: apache, tika, parser, content

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (3)

RSS

1.2, ваноним (?), 21:24, 16/11/2011 [ответить] [к модератору]	+/–
1200 форматов? o_O text/en-us text/utf-8 text/cp1251 ... html/en-us ... xhtml/en-us ... xxxhtml/en-us ...

1.4, AntonB (ok), 22:23, 16/11/2011 [ответить] [к модератору]	+/–
Потенциально штука интересная, надо будет познакомиться поближе.

1.7, hummermania (ok), 09:46, 17/11/2011 [ответить] [к модератору]	+/–
Ковыряю непосредственно, т.к. необходим внешний движок для извлечения метаданных из приаттаченных ODF (odt,ods) файлов к докам на CouchDB. Жаль правда что на яве, хотелось бы переписать на эрланг. А так полный список feauters-ов для своего круга задач - более чем. Пригодится даже для написания анализатора того или иного формата файлов на своем языке.

игнорирование участников | лог модерирования

Добавить комментарий

Имя:

E-Mail:

Текст: