|
|
3.20, Any_Key (?), 11:44, 05/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]
| +/– |
>> Оно лучше cuneiform?
> кто-нибудь Tesseract вообще хоть раз использовал?
Угу картинки (с текстом) в текст для индексирования перегонял.
Работает.
Только приходилось из SVN брать.
| |
|
2.23, balou (?), 15:27, 05/10/2010 [^] [^^] [^^^] [ответить] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]
| +/– |
они друг-друга стоят. одна система не умеет распознавать смешанные тексты, а другая плюёт не только на структуру документа но и текста как такового (легко меняет местами слова и строки)
| |
|
|
|
3.6, Аноним (-), 20:26, 04/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]
| +/– |
Ага, особенно четкое сканирование где каждая буква в пол монитора умудряется перебирать половину букв, со знаками препинания вообще беда, дай бог если восклицательный знак будет скобкой или наоборот
| |
|
2.25, AlexYeCu (?), 18:30, 05/10/2010 [^] [^^] [^^^] [ответить] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]
| +/– |
А мне cuneiform понравился. Заполненные текстом страницы распознаёт неплохо, что примечательно — с выводом в html результат куда лучше, чем с выводом в txt (может там какие-то скрытые от пользователя опции используются?).
| |
|
|
2.13, bircoph (?), 23:54, 04/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]
| +1 +/– |
Это, по большому счёту, библиотека -- там даже консольного интерфейса нет.
Нет распознования колонок -- так что tesseract без серьёзной доработки мирно отдыхает по сравнению с cuneiform.
| |
|
1.14, Malky (?), 01:19, 05/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [↓] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]
| +/– |
Собрал я его, работает, даже gscan2pdf согласился с третьей версией работать. А вот язык кроме английского никакой выбрать не получается. При указании любого из прилагаемых языковых файлов выдает ошибку вида "Error openning data file /usr/local/share/tessdata/russian.traineddata"
| |
|
2.15, Аноним (-), 03:53, 05/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]
| +1 +/– |
Please check out the ReadMe before going to Downloads as you need more than one file. Even the windows executables tarball is incomplete as language files are required.
Перевести? :-)
| |
|
1.16, Malky (?), 09:19, 05/10/2010 [ответить] [﹢﹢﹢] [ · · · ] [↓] [↑] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]
| +/– |
Ну и что вы хотели этим сказать? readme я прочитал, но четкого указания не нашел касательно прикручивания языков. Лишь только то, что должны быть помещены в tassdata. Пробовал и при сборке их помещать в папку tessdata в каталоге и исходниками и после сборки... Если разобрались, то подскажите...
| |
|
|
3.21, Malky (?), 11:57, 05/10/2010 [^] [^^] [^^^] [ответить] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]
| +/– |
Все, разобрался) Тормозил я, указывая полное название языка вместо трех буквенного сокращения. А вот gscan2pdf с новым tesseract работает, но выбрать языки не дает...
| |
|
|
|
2.26, AlexYeCu (?), 18:34, 05/10/2010 [^] [^^] [^^^] [ответить] [↓] [п╨ п╪п╬п╢п╣я─п╟я┌п╬я─я┐]
| +/– |
А как из этого rpm собрать? Тот *.spec, что в комплекте, написан вообще непонятно под что — пути другие, файлы языковых данных другие и т.д. Причём ему почему-то надо попытаться открыть *.traineddata.gz как тарбол, хотя весь спек перерыл (там особо и ничего перерывать) — нет указаний на это.
| |
|
|