Ответ 1
GetBoxText()
метод вернет точное положение каждого символа в массиве.
char *boxtext = _tesseract->GetBoxText(0);
NSString* aBoxText = [NSString stringWithUTF8String:boxtext];
Использование метода GetHOCRText (0) в tesseract. Я могу получить текст в html и при представлении html в webview, я могу получить текст, но размещение текста в изображении отличается от вывода. Любая идея очень полезна.
tesseract->SetInputName("word");
tesseract->SetOutputName("xyz");
tesseract->Recognize(NULL);
char *utf8Text=tesseract->GetHOCRText(0);
и выходное изображение
GetBoxText()
метод вернет точное положение каждого символа в массиве.
char *boxtext = _tesseract->GetBoxText(0);
NSString* aBoxText = [NSString stringWithUTF8String:boxtext];
Если у вас есть выход hocr, у вас должен быть тег для каждого слова. Эти теги должны иметь class= "ocrx_word" и name= "bbox x1 y1 x2 y2", где x и y - верхний левый и нижний правый углы рамки вокруг слова. Я не думаю, что можно автоматически использовать эту информацию для форматирования текстового документа - для этого потребуется перевести различия в пикселях в число вкладок/пробелов. Но вы должны иметь возможность отображать текст в данном месте.