The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Релиз системы извлечения контента Apache Tika 1.2

17.07.2012 15:53

Доступен релиз Apache Tika 1.2, набора библиотек на языке Java для выявления, анализа, парсинга и выделения мета-данных и структурированного контента из разнообразных форматов файлов. Всего поддерживается более 1200 форматов, включая HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, различные форматы изображений, мультимедиа, архивов и пакетов программ. Изначально Apache Tika был разработан как часть поискового движка Apache Lucene, но позднее перерос в самостоятельный проект. Кроме библиотек, подготовлены консольная утилита и GUI-приложение для удобного извлечения контента из разных наборов данных. Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.

Среди новшеств, добавленных в Apache Tika 1.2:

  • Поддержка JAX-RS (Java API для RESTful web-сервисов)
  • Средства для обработки метаданных XMP
  • Интеграция библиотеки с поддержкой используемого в продуктах Mozilla алгоритма автоматического определения кодировок текста
  • Поддержка форматов файлов KML (Keyhole Markup Language), XZ и Pack200
  • Улучшение извлечения контента из файлов iWork
  • Поддержка определения файлов FITS (Flexible Image Transport System)
  • Улучшение извлечения ресурсов из OLE2-документов.


  1. Главная ссылка к новости (http://mail-archives.apache.or...)
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/34347-java
Ключевые слова: java, apache, tika
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (2) RSS
  • 1, ДяДя (?), 17:06, 17/07/2012 [ответить]  
  • +/
    >Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.

    А кто-то говорил, что библиотеку на Java можно использовать только из Java.

     
  • 2, Аноним (-), 20:40, 17/07/2012 [ответить]  
  • +/
    И главное шустро работает, по сравнению со strigi. Apache как всегда на высоте.
     
     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру