Ответ 1
Любой достойный движок OCR требует много лет для разработки, и большинство из них были разработаны на C или С++. Большинство инструментальных средств, таких как Pegasus, Asprise, снабжены интерфейсами C, С++ и С#. Многие производители создают тонкие обертки - существующие OCR-движки, такие как Abbyy FineReader, Google Tesseract и Scansoft Caere (Omnipage), и продают их как предлагаемое предложение.
Я не верю, что есть коммерческие OCR-модули, написанные исключительно на С# или другом языке .NET. Могут быть некоторые менее сложные механизмы OCR, написанные на С#, с использованием нейронных сетей, которые могут читать только ограниченное количество шрифтов, напечатанных на чистых документах.
Хороший коммерческий OCR-движок сочетает в себе множество различных стратегий для получения наилучших результатов, включая предварительную обработку изображений, словари, триграммы, несколько движков и большое количество учебных данных с многолетним тестированием. Скорость также может стать проблемой с родной версией .NET по сравнению с C или С++.
Может быть, пока не будет разработан движок С#. Портирование существующего кода на С++ может оказаться очень сложным и, вероятно, проще начать с нуля. Это мое личное мнение, основанное на многолетнем опыте работы со многими различными коммерческими двигателями.