Релиз системы распознавания текста Tesseract 5.3.4

18.01.2024 20:11

Опубликован релиз системы оптического распознавания текста Tesseract 5.3.4, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, AVX512F, NEON или SSE4.1.

Основные улучшения:

Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
В сервере ScrollView в качестве приоритетного протокола задействован TCP.
При использовании команды "combine_tessdata -d" обеспечен вывод в поток stdout вместо stderr.
Устранены проблемы со сборкой при использовании autoconf и clang.

исправить +20 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/60457-tesseract

Ключевые слова: tesseract, ocr

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (30)

1.1, Аноним (1), 20:25, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]	+10 +/–
Линуксу не хватает распознавания текстов уровня FineReader

2.2, Аноним (2), 20:31, 18/01/2024 [^] [^^] [^^^] [ответить]	–10 +/–
Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader

3.3, Аноним (3), 20:42, 18/01/2024 [^] [^^] [^^^] [ответить]	+7 +/–
> в инете а тут ничего никому загружать не нужно, всё работает _оффлайн_.

4.5, Аноним (5), 20:45, 18/01/2024 [^] [^^] [^^^] [ответить]	+/–
Без обучения все равно результат плохой.

3.8, Аноним (1), 21:01, 18/01/2024 [^] [^^] [^^^] [ответить]	+3 +/–
Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме.

4.9, Аноним (2), 21:09, 18/01/2024 [^] [^^] [^^^] [ответить]	+/–
Ты что-ли занимаешься? Или софт вместо тебя этим занимается?

5.31, Прадед (?), 09:28, 20/01/2024 [^] [^^] [^^^] [ответить]	+/–
Недавно занимался распознаванием документа. Потом уснул..

6.32, Аноним (-), 12:58, 20/01/2024 Скрыто ботом-модератором [к модератору]	+/–

2.14, Матвей (??), 22:42, 18/01/2024 [^] [^^] [^^^] [ответить]	+6 +/–
Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.

3.19, onanim (?), 10:07, 19/01/2024 [^] [^^] [^^^] [ответить]	+8 +/–
> оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было. где скачать?

2.27, Jh (?), 20:16, 19/01/2024 [^] [^^] [^^^] [ответить]	+/–
tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы.

3.28, Jh (?), 20:18, 19/01/2024 [^] [^^] [^^^] [ответить]	+/–
не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать.

3.29, Jh (?), 20:30, 19/01/2024 [^] [^^] [^^^] [ответить]	+/–
И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой

1.4, robot228 (?), 20:42, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы.

2.10, Quad Romb (ok), 21:14, 18/01/2024 [^] [^^] [^^^] [ответить]	+/–
Fraktur очень медленно распознаёт по сравнению с FR15. На порядки медленнее. То есть от 200 до 400 раз медленнее.

1.7, Аноним (7), 20:46, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие.

1.11, paulus (ok), 21:26, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось?

2.12, Quad Romb (ok), 21:29, 18/01/2024 [^] [^^] [^^^] [ответить]	+2 +/–
Могёт. Если нет особо сложной вёрстки - даже вполне пристойно могёт. Но очень-очень не спеша. Для некоммерческого продукта, всё-таки, даёт весьма пристойный результат.

2.13, Аноним (13), 22:38, 18/01/2024 [^] [^^] [^^^] [ответить]	+2 +/–
В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало.

1.15, Аноним (15), 22:49, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен.

2.18, Тот_Самый_Анонимус_ (?), 10:01, 19/01/2024 [^] [^^] [^^^] [ответить]	+3 +/–
После файнридера приводить текст к единому стилю — то ещё удовольствие.

1.16, Аноним (15), 22:52, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie. Самая важная и основная функция инструмента для распознавания картинок! Лучше бы из stdin картинки брали, а курл или что там нужно мы сами уже подключим.

1.20, Ильч (?), 10:44, 19/01/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст?

1.23, Аноним (23), 13:44, 19/01/2024 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать!

2.24, Аноним (24), 15:06, 19/01/2024 [^] [^^] [^^^] [ответить]	+/–
Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска. Ещё два момента: — В Tesseract тоже завезли нейронки — PaddleOCR, как и сам фреймворк Paddle — китайский проект, основная масса документации, разработка и багтрекер тоже на китайском. Если языковой барьер не мешает, то пожалуйста.

3.25, Бывалый смузихлёб (?), 15:54, 19/01/2024 [^] [^^] [^^^] [ответить]	–2 +/–
> Если языковой барьер не мешает, то пожалуйста. Онлайн-переводчики уже запретили ?

4.26, Аноним (24), 16:10, 19/01/2024 [^] [^^] [^^^] [ответить]	+/–
Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое.

3.30, cat666 (ok), 21:22, 19/01/2024 [^] [^^] [^^^] [ответить]	+1 +/–
Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы.

4.33, Аноним (33), 15:25, 20/01/2024 [^] [^^] [^^^] [ответить]

+1 +/–

Китайцы безусловно молодцы, факт.

> Всё остальное просто нервно курит в сторонке по качеству распознавания.

Само-собой, нейронки нещадно нагибают классический подход.

> Я собирал на C++ и библиотеку и программу распознавания.

cpp_infer? Оно работало, но это скорее побочное демо. Основная софтина — это именно питона кусок.

> Много документации на английском

Какая–то есть. Актуальность и полноту по сравнению с китайской берёшься гарантировать? (спойлер: китайская полнее и актуальнее) Поиск по багтрекеру тоже возьмёшся организовать?

Штука не в том. PaddleOCR развивается, тестируется и поддерживается именно как датасатанистский проект с питоном во все поля. Не как сишная либа. Отдельные инициативы по запуску моделей на нативных рантаймах — это именно что демки и proof–of–concept. Без поддержки и гарантий актуализации. Самое ценное там — это компактные модели, но обвязку под них придётся допиливать самостоятельно.

В том и разница: Tesseract компактен, самодостаточен и почти без сторонних зависимостей (всё чтение форматов и обработка картинок вынесены в leptonica). А PaddleOCR — это нейронка, приклеенная к нагромождению third–party либ (один OpenCV чего стоит), и всё насквозь перемотанное синей изолентой. С огромным количеством «если», «может быть» и «— Е..нёт? — Не должно».

игнорирование участников | лог модерирования

Добавить комментарий

Текст: