Ответ 1
Не знаю, насколько это хорошо (определенно нужно сначала обучить), но есть Ron Cemer Java OCR library.
Я хотел бы создать приложение для Android, которое через библиотеку OCR должно сканировать изображение, извлекающее текст из него.
Какую библиотеку Java я должен использовать?
Не знаю, насколько это хорошо (определенно нужно сначала обучить), но есть Ron Cemer Java OCR library.
Если вы ищете очень расширяемый вариант или имеете конкретный проблемный домен, вы можете рассмотреть возможность его собственного использования, используя Java Object Oriented Neural Engine.
Я успешно использовал его в личном проекте для идентификации буквы с изображения, такого как this, вы можете найти весь источник для OCR компонент моего приложения на github, здесь.
попробуйте tesseract, Оформить заказ http://www.itwizard.ro/interfacing-cc-libraries-via-jni-example-tesseract-163.html и этот пример http://code.google.com/p/mezzofanti/
Изменить: еще несколько фактов - tesseract - одно из лучших OCR с открытым исходным кодом, используемое Google - имеются учебные данные, доступные для многих языков - mezzofanti - приложение для Android, которое использует tesseract - Остерегайтесь: OCR использует много мощности процессора. попытка OCR на странице формата A4 с вашим T-Mob G1 займет много времени, и результат может не впечатлить вас: -)
Вы можете использовать функцию OCR из Документов Google. Проверьте API данных списка документов http://code.google.com/apis/documents/docs/3.0/developers_guide_protocol.html#OCR