Ответ 1
Сканированные изображения, преобразованные в PDF, которые были OCR'ed в последствии, чтобы сделать текстовый поиск, обычно содержат текстовые части, отображаемые как "невидимые". Так что вы видите на экране (или на бумаге при печати) все еще оригинальное изображение. Но когда вы search успешно, вы получите выделенные хиты, которые находятся на невидимом тексте.
Я бы рекомендовал вам ознакомиться с инструментами командной строки, созданными XPDF pdffonts(.exe)
, pdfinfo(.exe)
и pdftotext(.exe)
. Смотрите здесь для загрузки: http://www.foolabs.com/xpdf/download.html
Пример использования pdffonts
:
C:\downloads\> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique Type 1C yes yes no 13171 0
LGOKGM+Univers-Black Type 1C yes yes no 13172 0
[....]
В этом PDF-шрифте используются шрифты (обозначенные столбцом "name" ), они встроены (обозначены "да" в столбце "emb" ) и используют шрифты подмножества (обозначенные "да" в "под", столбец).
C:\downloads\> pdffonts examle1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique Type 1C yes no no 14 0
Arial TrueType no no no 15 0
В этом PDF файле используются два шрифта (обозначается столбцом "name" ). Шрифт "Universe-BlackOblique" полностью внедрен (обозначается "да" в столбце "emb" и "нет" в столбце "под" ). Шрифт "Arial" также используется, но не встроен.
C:\downloads\> pdffonts examle2.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
В этом PDF файле используется не один шрифт, и, следовательно, он не имеет встроенного текста (поэтому OCR не существует).
Пример использования pdftotext
:
C:\downloads\> pdftotext ^
-layout ^
cisco-ip-phone-7911-guide6.1.pdf ^
cisco-ip-phone-7911-guide6.1.txt
Это извлечет все текстовые строки из PDF (пытаясь сохранить некоторое сходство с исходным макетом). Если в PDF нет текста, вы бы знали, что OCR не было...