Альтернатива Tesseract OCR Training?

За последние 3 месяца я пытался тренировать Tesseract
С указанием коллекции изображений, которые у меня были, из-за реального недостатка правильной документации и очень высокого уровня сложности я начинаю отказаться от Tesseract как решения.

Я ищу альтернативу, которая была бы относительно безболезненной для обучения я не ищу, чтобы заново открыть колесо здесь.

Если нет ничего свободного, я думаю, платные решения будут (ничего выше 200 $)

Ответы

Ответ 1

На основе вашего комментария все, что вам нужно, - это отсканировать относительно небольшой объем документов с почти 100% точностью, а ваш бюджет составляет около 200 $

Ну, тогда ответ прост. Вам не нужно какое-либо программное решение. Просто купите качественный коммерческий продукт OCR, т.е. ABBYY FineReader (отказ от ответственности: я работаю для ABBYY). У него разные цены в разных регионах, но я думаю, что это где-то около вашего бюджета.

Коммерческий продукт OCR для настольных компьютеров предоставит вам стандартную точность почти 100% на типичных языках. Кроме того, они имеют удобные средства проверки вручную, чтобы исправить все остальные ошибки. Как правило, они поддерживают целый ряд современных шрифтов, но если ваш шрифт не является тривиальным, для этого у них есть программа для обучения шрифтов.

Я думаю, что это оптимальное решение для вас.

UPDATE: платформа Linux. К сожалению, почти нет выбора высококачественных OCR-продуктов для Linux, извините. Единственное, что я знаю, это ABBYY: http://ocr4linux.com/en:start, но у него нет интерфейса, проверки и обучения шрифтов. Но, по крайней мере, вы можете попытаться понять, даст ли он вам достаточно хорошую точность, как это возможно, что может случиться.

Ответ 2

Я обучил tesseract 2.04 после 1 месяца усилий по расширению шрифта OCR.
Он работает очень хорошо и показывает выше 90 Точность с размером шрифта 14.
Я предлагаю не сдаваться tesseract.
Пожалуйста, вы можете объяснить свою проблему в следующих пунктах.

  • Пожалуйста, дайте несколько изображений, которые вы хотите распознать. Знаете ли вы шрифты, используемые в этих изображениях.
  • Каков ваш высокий уровень сложности?

Ответ 3

Вы можете использовать jTessBoxEditor для редактирования созданных вами файлов в поле. В комплекте с ним находится PowerShell script для автоматизации создания файла box и окончательного создания файла .traineddata.