Установить шрифт Tesseract для OCR
Я хотел бы использовать tesseract для распознавания серийного номера, где я только хочу распознавать отдельные символы, ни слова, ни словаря. Поэтому я хотел бы использовать один из уже подготовленных типов шрифтов tesseract для серийного номера для достижения более высоких результатов распознавания.
Это обученные типы шрифтов Tesseract:
Andale_Mono.ttf
Arial_Black.ttf
Arial_Bold.ttf
Arial.ttf
Comic_Sans_MS_Bold.ttf
Comic_Sans_MS.ttf
Courier_New_Bold.ttf
Courier_New.ttf
Georgia_Bold.ttf
Georgia.ttf
Gottf
Impact.ttf
Times_New_Roman_Bold.ttf
Times_New_Roman.ttf
Trebuchet_MS_Bold.ttf
Trebuchet_MS.ttf
Verdana_Bold.ttf
Verdana.ttf
Так как обученные типы шрифтов также имеют разные стили шрифта-desin, есть проблемы с отличием, например, от символов "Z" и "2". Times New Roman имеет более округлый дизайн, в то время как Arial имеет только более прямые линии.
Мой опыт заключается в том, что у tesseract есть проблемы, чтобы отличить "Z" и "2" из-за измененного сходства других шрифтов.
Поэтому я думаю, что я могу добиться лучших результатов распознавания, если для распознавания символов с помощью tesseract используется только один тип шрифта (например, Arial).
Вопрос:
Есть ли возможность указать тип шрифта в tesseract?
Аналогичная, но более старая тема (октябрь 2012 г.) Ссылка