|
2.2, Аноним (2), 20:31, 18/01/2024 [^] [^^] [^^^] [ответить]
| –10 +/– |
Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader
| |
|
3.3, Аноним (3), 20:42, 18/01/2024 [^] [^^] [^^^] [ответить]
| +7 +/– |
> в инете
а тут ничего никому загружать не нужно, всё работает _оффлайн_.
| |
3.8, Аноним (1), 21:01, 18/01/2024 [^] [^^] [^^^] [ответить]
| +3 +/– |
Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме.
| |
|
4.9, Аноним (2), 21:09, 18/01/2024 [^] [^^] [^^^] [ответить]
| +/– |
Ты что-ли занимаешься? Или софт вместо тебя этим занимается?
| |
|
|
2.14, Матвей (??), 22:42, 18/01/2024 [^] [^^] [^^^] [ответить]
| +6 +/– |
Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.
| |
|
3.19, onanim (?), 10:07, 19/01/2024 [^] [^^] [^^^] [ответить]
| +8 +/– |
> оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было.
где скачать?
| |
|
2.27, Jh (?), 20:16, 19/01/2024 [^] [^^] [^^^] [ответить]
| +/– |
tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы.
| |
|
3.28, Jh (?), 20:18, 19/01/2024 [^] [^^] [^^^] [ответить]
| +/– |
не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать.
| |
3.29, Jh (?), 20:30, 19/01/2024 [^] [^^] [^^^] [ответить]
| +/– |
И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой
| |
|
|
1.4, robot228 (?), 20:42, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы.
| |
|
2.10, Quad Romb (ok), 21:14, 18/01/2024 [^] [^^] [^^^] [ответить]
| +/– |
Fraktur очень медленно распознаёт по сравнению с FR15.
На порядки медленнее. То есть от 200 до 400 раз медленнее.
| |
|
1.7, Аноним (7), 20:46, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие.
| |
1.11, paulus (ok), 21:26, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось?
| |
|
2.12, Quad Romb (ok), 21:29, 18/01/2024 [^] [^^] [^^^] [ответить]
| +2 +/– |
Могёт.
Если нет особо сложной вёрстки - даже вполне пристойно могёт.
Но очень-очень не спеша.
Для некоммерческого продукта, всё-таки, даёт весьма пристойный результат.
| |
2.13, Аноним (13), 22:38, 18/01/2024 [^] [^^] [^^^] [ответить]
| +2 +/– |
В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало.
| |
|
1.15, Аноним (15), 22:49, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен.
| |
1.16, Аноним (15), 22:52, 18/01/2024 [ответить] [﹢﹢﹢] [ · · · ]
| –1 +/– |
> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
Самая важная и основная функция инструмента для распознавания картинок! Лучше бы из stdin картинки брали, а курл или что там нужно мы сами уже подключим.
| |
1.20, Ильч (?), 10:44, 19/01/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст?
| |
1.23, Аноним (23), 13:44, 19/01/2024 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать!
| |
|
2.24, Аноним (24), 15:06, 19/01/2024 [^] [^^] [^^^] [ответить]
| +/– |
Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска.
Ещё два момента:
— В Tesseract тоже завезли нейронки
— PaddleOCR, как и сам фреймворк Paddle — китайский проект, основная масса документации, разработка и багтрекер тоже на китайском. Если языковой барьер не мешает, то пожалуйста.
| |
|
|
4.26, Аноним (24), 16:10, 19/01/2024 [^] [^^] [^^^] [ответить]
| +/– |
Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое.
| |
|
3.30, cat666 (ok), 21:22, 19/01/2024 [^] [^^] [^^^] [ответить]
| +1 +/– |
Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы.
| |
|
4.33, Аноним (33), 15:25, 20/01/2024 [^] [^^] [^^^] [ответить]
| +1 +/– |
Китайцы безусловно молодцы, факт.
> Всё остальное просто нервно курит в сторонке по качеству распознавания.
Само-собой, нейронки нещадно нагибают классический подход.
> Я собирал на C++ и библиотеку и программу распознавания.
cpp_infer? Оно работало, но это скорее побочное демо. Основная софтина — это именно питона кусок.
> Много документации на английском
Какая–то есть. Актуальность и полноту по сравнению с китайской берёшься гарантировать? (спойлер: китайская полнее и актуальнее) Поиск по багтрекеру тоже возьмёшся организовать?
Штука не в том. PaddleOCR развивается, тестируется и поддерживается именно как датасатанистский проект с питоном во все поля. Не как сишная либа. Отдельные инициативы по запуску моделей на нативных рантаймах — это именно что демки и proof–of–concept. Без поддержки и гарантий актуализации. Самое ценное там — это компактные модели, но обвязку под них придётся допиливать самостоятельно.
В том и разница: Tesseract компактен, самодостаточен и почти без сторонних зависимостей (всё чтение форматов и обработка картинок вынесены в leptonica). А PaddleOCR — это нейронка, приклеенная к нагромождению third–party либ (один OpenCV чего стоит), и всё насквозь перемотанное синей изолентой. С огромным количеством «если», «может быть» и «— Е..нёт? — Не должно».
| |
|
|
|
|