Ответ 1
Хорошо, поиск в google приходит к этому, конкретному шрифту OCR: OCR Font
Похоже, это стандарт, принятый в 1973 году.
Есть ли у кого-нибудь опыт работы с разными шрифтами для OCR? Я генерирую идентификатор, а затем пытаюсь отсканировать его с помощью tesseract. На данный момент я просто T & E'n разные шрифты, но это кажется довольно неэффективным. Я пробовал семейство шрифтов OCR * и других других, таких как Arial и Georgia. Тессеракт имеет тенденцию путаться с шрифтами OCR *.
Есть ли шрифт, специально предназначенный для tesseract, или любой системный шрифт, который хорошо работает с ним?
Хорошо, поиск в google приходит к этому, конкретному шрифту OCR: OCR Font
Похоже, это стандарт, принятый в 1973 году.
Попробовав множество разных шрифтов и движка OCR, я получаю лучшие результаты, используя Consolas. Это моноширинный шрифт, такой как OCR-A, но легче читать для людей. Консола входит в состав нескольких продуктов Microsoft.
Существует также шрифт с открытым исходным кодом Inconsolata, на который влияет Консолас. Inconsolata - хорошая замена для Consolas, особенно учитывая детали лицензирования.
В моих тестах числа и пробелы в Calibri шрифте не всегда были правильно распознаны. OCR-A дал много ошибок при чтении. Я не давал MIRC попробовать, так как это нелегко прочитать для большинства людей.
Примечание: tesseract требует много тестирования и тонкой настройки перед надежностью. В нашем случае мы перешли на коммерчески лицензированный OCR-движок (ABBYY), особенно потому, что надежность была очень важна, и нам нужно было поддерживать несколько (европейских) языков.
Обновление: 2017 31 января - Изменено "на основе Consolas" на "под влиянием Consolas" из-за потенциальных проблем с авторскими правами.
Я считаю, что Calibri работает лучше для меня. Мы ежедневно используем программное обеспечение OCR в автоматизированной системе и после тестирования десятков шрифтов (в том числе некоторых специфических OCR), что Calibri всегда лучше всех.
Удачи.
Я бы, вероятно, использовал тот же шрифт, который банки используют для номеров маршрутизации в нижней части чеков:
http://morovia.com/font/micr.asp
Он был специально разработан, чтобы быть однозначно машиночитаемым.
У меня всегда был успех, просто используя времена, новые романы..
В последнее время я провел обширное тестирование в ECM под названием Laserfiche, в котором используется Nuance OmniPage, и я обнаружил, что моноширинные шрифты работают плохо по сравнению с динамически разнесенными шрифтами. Эти старые шрифты OCR не работают, а также более "нормальные" шрифты. Особенно для строк чисел при меньших размерах шрифта, таких как точка 12.
Странно, что кто-то еще добивается успеха с Калибри. Это было очень плохо в моих тестах, регулярно получая похожие письма и цифры, смущенные друг для друга. Лучшие шрифты (среди тех, которые поставляются на компьютере под управлением Windows с установленным Office) были Consolas, Verdana и Book Antiqua. Все динамические шрифты с засечками, в которых буквы и цифры выглядели отчетливо. Консолас был чемпионом.
В настоящее время используется Monospace. Пробовал очень много шрифтов, но это самый точный для меня.