Ответ 1
Должно использовать другое имя, например, eng1.traineddata
. Таким образом, вы можете использовать новые данные с оригинальным, указав опцию языка -l eng+eng1
.
Насколько я знаю, Tesseract 3.x поставляется с 6 английскими (исправить меня, если я ошибаюсь) шрифтами. Мне нужно тренировать Tesseract для более 5 типов шрифтов. Мне нужны только заглавные буквы и цифры (никаких специальных символов или символов).
Я следил за различными процессами, например: Добавление новых шрифтов в Tesseract 3 OCR Engine
а также используемые инструменты для автоматизации процесса, например Тренер Serak Tesseract для Tesseract 3.02
Для создания файлов я использовал QT Box Editor
После использования вышеперечисленных инструментов я получаю файл eng.traineddata
. Все учебные пособия говорят мне добавить этот файл eng.traineddata
в папку Tesseract-OCR\tessdata
, но при этом он заменит исходный файл eng.traineddata
. После этого я потеряю шрифты по умолчанию, которые поставляются с Tesseract 3.x?
Как добавить новые шрифты? Мне все еще не ясно. Надеюсь, кто-то может мне помочь. Спасибо.
Должно использовать другое имя, например, eng1.traineddata
. Таким образом, вы можете использовать новые данные с оригинальным, указав опцию языка -l eng+eng1
.
Если у вас есть новые обучаемые данные с другим шрифтом, я думаю, что у вас нет коррекции словаря для вашего нового шрифта.
Чтобы добавить новые подготовленные данные, вы можете сделать это (я использую здесь PHP-код)
// as you new trained data, it must be 3 letter prefix
// what ever 3 letter you want
$languange = "eng+deu";
$settingLanguage = $tesseract -> setLanguage($language) ;
Увидев функцию tesseract.php setLanguage()
, вы можете установить язык с помощью этой функции.