Ответ 1
Начиная с версии 3.01 Tessaract-ocr теперь он поддерживает арабский
Я искал библиотеку OCR - оптимально это был бы open-source, который я мог бы использовать на некоторых арабских pdf-страницах. Похоже, это не принесло ничего полезного. Мне было интересно, знает ли кто-нибудь о соответствующей библиотеке OCR или даже о том, что работает на родственных языках (например, фарси и урду), к которой может быть добавлена поддержка арабского языка.
Любые общие предложения о том, как подойти к этому, будут оценены.
Начиная с версии 3.01 Tessaract-ocr теперь он поддерживает арабский
Я ничего не знаю о качестве арабского OCR, но какой-то умный Googling нашел Sakhr Automatic Reader. Это коммерческое программное обеспечение.
К сожалению. Это коммерческий и довольно дорогой. На арабском языке, вероятно, один из самых сложных языков в мире, на котором работает OCR - я думаю, для этого требуется много усилий, чтобы побудить кого-то сделать это.
Арабский язык сложный, когда дело доходит до OCR из-за природы языка, и нет бесплатного или коммерческого программного обеспечения, которое может получить 100% -ную точность.
Это из моего личного опыта, но вы можете попробовать IRISREadIRIS pro 14.