Релиз системы распознавания текста Tesseract 3.0 с поддержкой русского языка

04.10.2010 18:15

После трех лет разработки выпущен релиз системы оптического распознавания текста Tesseract 3.0. Одним из самых важных улучшений в новой версии стала поддержка распознавания документов на русском и украинском языках. Изначально система была создана в 1985-1995 годы в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google.

Основные улучшения Tesseract 3.0:

Проведена подготовка кода к использованию в многопоточных программах;
Добавлен модуль анализа структуры документа;
Добавлена поддержка вывода результатов в формате HOCR;
В качестве основного средства для ввода/вывода, обработки и анализа изображений теперь используется библиотека Leptonica. Пока использование Leptonica опционально, но в будущих выпусках станет обязательным;
Переписаны таблицы сопоставления неоднозначно распознаваемых элементов;
Добавлен TessdataManager для совмещения нескольких файлов с данными в один файл;
Проведена чистка неиспользуемого кода и прекращена поддержка сборки в VC++6;
Добавлены дополнительные языки в систему распознавания.

исправить +7 +/–

Автор новости: gregg128

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/28169-Tesseract

Ключевые слова: Tesseract, ocr

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (33)

1.1, gregg128 (?), 19:35, 04/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Спасибо за редактуру. Я не программер, поэтому неясные мне куски ченджлога просто не стал переводить. Главное в такой новости - heads up :)

1.2, gregg128 (?), 19:39, 04/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Кто первый соберёт .deb - тому преогромное моё спасибо :)

1.3, анонимиус (?), 19:56, 04/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [↓] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Оно лучше cuneiform?

2.9, paulus (ok), 20:48, 04/10/2010 [^] [^^] [^^^] [ответить] [↓] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
> Оно лучше cuneiform? кто-нибудь Tesseract вообще хоть раз использовал?

3.12, Sw00p aka Jerom (?), 23:14, 04/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+2 +/–
года три назад использовал для борьбы с графическим спамом вроде ничего надо было обучать а после ваще перешёл на оцр обвчный и выкинул нах (сменил политику борьбы)

3.20, Any_Key (?), 11:44, 05/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
>> Оно лучше cuneiform? > кто-нибудь Tesseract вообще хоть раз использовал? Угу картинки (с текстом) в текст для индексирования перегонял. Работает. Только приходилось из SVN брать.

2.23, balou (?), 15:27, 05/10/2010 [^] [^^] [^^^] [ответить] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
они друг-друга стоят. одна система не умеет распознавать смешанные тексты, а другая плюёт не только на структуру документа но и текста как такового (легко меняет местами слова и строки)

1.4, Аноним (-), 20:14, 04/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [↓] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	–1 +/–
>Оно лучше cuneiform? зная последний, если какая-либо программа вообще умеет распознавать тексты, то она это уже делает лучше cuneiform

2.5, аноним (?), 20:21, 04/10/2010 [^] [^^] [^^^] [ответить] [↓] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
не преувеличивайте. Cuneiform прекрасно распознает, но только на больших разрешениях...

3.6, Аноним (-), 20:26, 04/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Ага, особенно четкое сканирование где каждая буква в пол монитора умудряется перебирать половину букв, со знаками препинания вообще беда, дай бог если восклицательный знак будет скобкой или наоборот

4.7, gregg128 (?), 20:40, 04/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]

+/–

Вы что-то не так делаете. У меня этот самый cuneiform прекрасно распознавал сканированный текст в большом разрешении. Жаль, что туда нельзя добавить свой язык (мне нужны яти-еры-фиты-ижицы).

Да, если вы недовольны качеством распознавания - вперёд, коды открыты.

Можете начать с помощи отважному гражданину, который взялся за рефакторинг: https://code.launchpad.net/~serge-uliss/cuneiform-linux/refactoring

4.8, paulus (ok), 20:46, 04/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
при 600dpi распознает и знаки препинания...

4.24, Michael Shigorin (ok), 17:37, 05/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Надо не "особенно чёткое", а оптимальное для задачи, дядя. Смутно припоминается, что в р-не 100..300 dpi, но никак не 1200.

2.25, AlexYeCu (?), 18:30, 05/10/2010 [^] [^^] [^^^] [ответить] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
А мне cuneiform понравился. Заполненные текстом страницы распознаёт неплохо, что примечательно — с выводом в html результат куда лучше, чем с выводом в txt (может там какие-то скрытые от пользователя опции используются?).

1.10, Frank (??), 21:58, 04/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+2 +/–
Русский это хорошо, а украинский - вообще прекрасно!

1.11, KERNEL_PANIC (ok), 22:44, 04/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [↓] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
А он консольный или с мордой? Не, не то чтоб мне была разница, просто в библиотеку блондинкам надо, а их фиг за консоль посадишь:)

2.13, bircoph (?), 23:54, 04/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+1 +/–
Это, по большому счёту, библиотека -- там даже консольного интерфейса нет. Нет распознования колонок -- так что tesseract без серьёзной доработки мирно отдыхает по сравнению с cuneiform.

1.14, Malky (?), 01:19, 05/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [↓] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Собрал я его, работает, даже gscan2pdf согласился с третьей версией работать. А вот язык кроме английского никакой выбрать не получается. При указании любого из прилагаемых языковых файлов выдает ошибку вида "Error openning data file /usr/local/share/tessdata/russian.traineddata"

2.15, Аноним (-), 03:53, 05/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+1 +/–
Please check out the ReadMe before going to Downloads as you need more than one file. Even the windows executables tarball is incomplete as language files are required. Перевести? :-)

1.16, Malky (?), 09:19, 05/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [↓] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Ну и что вы хотели этим сказать? readme я прочитал, но четкого указания не нашел касательно прикручивания языков. Лишь только то, что должны быть помещены в tassdata. Пробовал и при сборке их помещать в папку tessdata в каталоге и исходниками и после сборки... Если разобрались, то подскажите...

2.18, evkogan (?), 09:33, 05/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Linux только дома. Поэкспериментировать смогу только завтра вечером А на винде так все просто кладете их в эту папочку и все работает

3.21, Malky (?), 11:57, 05/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Все, разобрался) Тормозил я, указывая полное название языка вместо трех буквенного сокращения. А вот gscan2pdf с новым tesseract работает, но выбрать языки не дает...

1.17, evkogan (?), 09:31, 05/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [↓] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Хорошо конечно что распознает русский, давно пора. Вот только планируется ли у него распознавание оформления?

2.19, Sw00p aka Jerom (?), 10:06, 05/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
дык он ещё три года тому назад русский распозновал - просто надо было его этому обучать

1.22, Аноним (-), 15:21, 05/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [↓] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
ищу cuneiform скомпиленнй под Виндоуз. Подскажите как в пакетном режиме распознавать в виндоуз ?

2.26, AlexYeCu (?), 18:34, 05/10/2010 [^] [^^] [^^^] [ответить] [↓] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
А как из этого rpm собрать? Тот .spec, что в комплекте, написан вообще непонятно под что — пути другие, файлы языковых данных другие и т.д. Причём ему почему-то надо попытаться открыть .traineddata.gz как тарбол, хотя весь спек перерыл (там особо и ничего перерывать) — нет указаний на это.

3.27, gregg128 (?), 19:26, 05/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Не исключено, что спек вообще от версии 2.04 (если не более старшей) У них форумы открыты, спросите.

3.28, Sw00p aka Jerom (?), 23:28, 05/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Из сорцов нормально ставится

2.29, Заморский Гость (?), 01:02, 06/10/2010 [^] [^^] [^^^] [ответить] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Скачай с сайта cuneiform и будет тебе щасье.

2.32, HJ (??), 13:41, 20/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
http://www.cuneiform.ru/downloads/index.html

1.30, Levan (?), 00:27, 10/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Tesseract 3.0 у меня колонки гораздо точнее распознает чем само распознование слов, иногда даже лучше abbyy!

2.31, aburdo (ok), 13:02, 12/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
Есть ли возможность распознавать не по одному файлу, а сразу список картинок? У меня около 1000 tif-ов.

3.33, gregg128 (ok), 22:31, 29/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]	+/–
А баш и прочее юникс-счастье вам неведомы ? Делается в одну строчку.

Добавить комментарий

Имя:

E-Mail:

Текст: