forum.opennet.ru - "Релиз системы извлечения контента Apache Tika 1.2" (2)

форумы

помощь

поиск

регистрация

майллист

вход/выход

слежка

"Релиз системы извлечения контента Apache Tika 1.2"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Релиз системы извлечения контента Apache Tika 1.2"	+/–
Сообщение от opennews on 17-Июл-12, 17:06
Доступен (http://mail-archives.apache.org/mod_mbox/tika-user/201207.mb...) релиз Apache Tika 1.2 (http://tika.apache.org/1.0/index.html), набора библиотек на языке Java для выявления, анализа, парсинга и выделения мета-данных и структурированного контента из разнообразных форматов файлов. Всего поддерживается более 1200 форматов, включая HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, различные форматы изображений, мультимедиа, архивов и пакетов программ. Изначально Apache Tika был разработан как часть поискового движка Apache Lucene, но позднее перерос в самостоятельный проект. Кроме библиотек, подготовлены консольная утилита и GUI-приложение для удобного извлечения контента из разных наборов данных. Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++. Среди новшеств (http://www.apache.org/dist/tika/CHANGES-1.2.txt), добавленных в Apache Tika 1.2: - Поддержка JAX-RS (Java API для RESTful web-сервисов) - Средства для обработки метаданных XMP - Интерграция библиотеки с поддержкой используемого в продуктах Mozilla алгоритма автоматического определения кодировок текста - Поддержка форматов файлов KML (Keyhole Markup Language), XZ и Pack200 - Улучшение извлечения контента из файлов iWork - Поддержка определения файлов FITS (Flexible Image Transport System) - Улучшение извлечения ресурсов из OLE2-документов. URL: http://mail-archives.apache.org/mod_mbox/tika-user/201207.mb... Новость: https://www.opennet.ru/opennews/art.shtml?num=34347
Ответить \| Правка \| Cообщить модератору

Оглавление

Релиз системы извлечения контента Apache Tika 1.2, ДяДя, 17:06 , 17-Июл-12, (1)
Релиз системы извлечения контента Apache Tika 1.2, Аноним, 20:40 , 17-Июл-12, (2)

Сообщения по теме [Сортировка по времени | RSS]

1. "Релиз системы извлечения контента Apache Tika 1.2" +/–

Сообщение от ДяДя on 17-Июл-12, 17:06

>Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.
А кто-то говорил, что библиотеку на Java можно использовать только из Java.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Релиз системы извлечения контента Apache Tika 1.2" +/–

Сообщение от Аноним (??) on 17-Июл-12, 20:40

И главное шустро работает, по сравнению со strigi. Apache как всегда на высоте.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. "Релиз системы извлечения контента Apache Tika 1.2"	+/–
Сообщение от ДяДя on 17-Июл-12, 17:06
>Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++. А кто-то говорил, что библиотеку на Java можно использовать только из Java.
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору

2. "Релиз системы извлечения контента Apache Tika 1.2"	+/–
Сообщение от Аноним (??) on 17-Июл-12, 20:40
И главное шустро работает, по сравнению со strigi. Apache как всегда на высоте.
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору