Ответ 1
Это изображение nicky, представленное как "типичный примерный файл":
Глядя на это, я бы сказал: "Забудь об этом, ник! Ты не можешь обучить Тессеракта распознать 100% текста из этого типа изображения!"
Тем не менее, вы могли бы тренировать себя, чтобы делать лучшие фотографии с помощью вашего iPhone 3GS (что устройство, которое использовалось для примерных изображений) из такого типа квитанций. Вот несколько советов:
- Не используйте темный фон. Вместо этого используйте белый цвет.
- Не позволяйте бумаге получения рассыпаться. Выпрямите его.
- Не размещайте расписку на неровном подполье. Закрепите его на ровной поверхности:
- Либо поставьте его на белый лист бумаги и нанесите на него валик для стекла.
- Или используйте некоторый клей и приклейте его на белом листе бумаги без каких-либо изгибов или углов.
- Не используйте низкое разрешение, например, 640x480 пикселей (как показано на примере). Используйте более высокий, например 1280x960 пикселей.
- Не используйте стандартную экспозицию. Установите для камеры чрезвычайно высокую контрастность. Вы хотите, чтобы буквы были черными, а белый фон был действительно белым (вам не нужны серые картинки).
- Попробуйте сделать так, чтобы любой символ шрифта 10-12 pt использовал высоту около 24-30 пикселей (т.е. чтобы изображение было около 300 dpi для 100% увеличения).
Тем не менее, что-то вроде следующей команды ImageMagick, вероятно, в некоторой степени увеличит скорость распознавания Tesseract:
convert \
http://i.stack.imgur.com/q3Ad4.jpg \
-colorspace gray \
-rotate 90 \
-crop 260x540+110+75 +repage \
-scale 166% \
-normalize \
-colors 32 \
out1 .png
Он производит следующий вывод:
Вы можете добавить что-то вроде -threshold 30%
в качестве последней опции командной строки в команду выше:
(Вы должны немного поиграть с некоторыми изменениями значения 30%
, чтобы настроить результат... У меня нет времени для этого.)