Могу ли я использовать OCR для определения стиля шрифта (жирным шрифтом, курсивом)?
Мне интересно использовать OCR, чтобы извлекать жирные и курсивные слова из простого текста. Например, если я вставляю четкое изображение с таким текстом:
"Быстрая коричневая лиса прыгает над ленивой собакой."
Я хотел бы получить такой вывод: полужирный ( "коричневый", "прыжки" ), курсив ( "ленивый" )
Я изучил это с помощью OCRopus или Tesseract, но документация плохая, и я не могу сказать, возможно ли это, или как это сделать, если это возможно.
Ответы
Ответ 1
Существует такая функция в Tesseract 3.0.1, из туловища. В API добавлен новый класс - ResultIterator
, который имеет следующую функцию:
WordFontAttributes(bool* is_bold,
bool* is_italic,
bool* is_underlined,
bool* is_monospace,
bool* is_serif,
bool* is_smallcaps,
int* pointsize,
int* font_id).
На самом деле вы можете увидеть это самостоятельно здесь.
Ответ 2
Формат hOCR на основе XML Tesseract 3.0x включает атрибуты символов. Вы можете попробовать это.
http://code.google.com/p/tesseract-ocr/issues/detail?id=377#c5