Ответ 1
Успех. Большое спасибо людям из Лаборатории исследований распознавания образов и анализа изображений (PRImA) для создания инструментов для обработки этого. Вы можете бесплатно их получить на своем сайте или github,
Ниже я даю полное решение для Mac, работающего 10.10, и с помощью диспетчера пакетов homebrew. Я использую wine для запуска исполняемых файлов Windows.
Обзор
- Инструменты загрузки: Tesseract OCR на страницу (TPT) и Просмотр страниц (PVT)
- Используйте TPT для запуска tesseract на вашем документе и конвертирования HOCR xml в xml-страницу PAGE
- Используйте PVT для просмотра исходного изображения с наложенной информацией xml на странице
код
brew install wine # takes a little while >10m
brew install gs # only for generating a tif example. Not required, you can use Preview
brew install wget # only for downloading example paper. Not required, you can do so manually!
cd ~/Downloads
wget -O paper.pdf "http://www.prima.cse.salford.ac.uk/www/assets/papers/ICDAR2013_Antonacopoulos_HNLA2013.pdf"
# This command can be ommitted and you can do the conversion to tiff with Preview
gs \
-o paper-%d.tif \
-sDEVICE=tiff24nc \
-r300x300 \
paper.pdf
cd ~/Downloads
# ttptool is the location you downloaded the Tesseract to PAGE tool to
ttptool="/Users/Me/Project/tools/TesseractToPAGE 1.3"
# sudo chmod 777 "$ttptool/bin/PRImA_Tesseract-1-3-78.exe"
touch "$ttptool/log.txt"
wine "$ttptool/bin/PRImA_Tesseract-1-3-78.exe" \
-inp-img "$dl/Downloads/paper-3.tif" \
-out-xml "$dl/Downloads/paper-3-tool.xml" \
-rec-mode layout>>log.txt
# pvtool is the location you downloaded the PAGE Viewer tool to
pvtool="/Users/Me/Project/tools/PAGEViewerMacOS_1.1/JPageViewer 1.1 (Mac OS, 64 bit)"
cd "$pvtool"
dl=~
java -XstartOnFirstThread -jar JPageViewer.jar "$dl/Downloads/paper-3-tool.xml" "$dl/Downloads/paper-3.tif"
Результаты
Документ с оверлеями (опрокидывание для просмотра текста и типа)
Оверлей один (используйте кнопки GUI для переключения)
Приложение
Вы можете запустить tesseract самостоятельно и использовать другой инструмент для преобразования его вывода в формат PAGE. Я не смог заставить это работать, но я уверен, что с вами все будет в порядке!
# Note that the pvtool does take as input HOCR xml but it ignores the region type
brew install tesseract --devel # installs v 3.03 at time of writing
tesseract ~/Downloads/paper-3.tif ~/Downloads/paper-3 hocr
mv paper-3.hocr paper-3.xml # The page viewer will only open XML files
java -XstartOnFirstThread -jar JPageViewer.jar "$dl/Downloads/paper-3.xml"
На этом этапе вам нужно использовать PAGE Converter Java Tool, чтобы преобразовать HOCR xml в xml. Это должно выглядеть примерно так:
pctool="/Users/Me/Project/tools/JPageConverter 1.0"
java -jar "$pctool/PageConverter.jar" -source-xml paper-3.xml -target-xml paper-3-hocrconvert.xml -convert-to LATEST
К сожалению, я продолжал получать нулевые указатели.
Could not convert to target XML schema format.
java.lang.NullPointerException
at org.primaresearch.dla.page.converter.PageConverter.run(PageConverter.java:126)
at org.primaresearch.dla.page.converter.PageConverter.main(PageConverter.java:65)
Could not save target PAGE XML file: paper-3-hocrconvert.xml
java.lang.NullPointerException
at org.primaresearch.dla.page.io.xml.XmlInputOutput.writePage(XmlInputOutput.java:144)
at org.primaresearch.dla.page.converter.PageConverter.run(PageConverter.java:135)
at org.primaresearch.dla.page.converter.PageConverter.main(PageConverter.java:65)