Ответ 1
В спецификации PDF не упоминается "текстовый слой". Обычно есть только один способ "сохранить" текст: с помощью текста, отображающего операторы. Эти операторы рисуют текст в определенном месте, используя определенный цвет, шрифт, размер шрифта и режим рендеринга текста. Есть несколько режимов рендеринга текста. Чтобы ответить на ваш вопрос, текст может быть видимым или невидимым.
Сканер, который выполняет распознавание текста, отображает как растровое изображение, так и текст в документе PDF. Текст отображается с использованием режима невидимого текста. В результате вы можете выбрать текст с помощью мыши (выделенная область будет отображаться в ожидаемом месте в верхней части изображения), и вы сможете искать текст. Снова результат поиска будет показан в правильном месте.
Что происходит, когда вы генерируете PDF из документа Word, зависит от программного обеспечения, которое вы используете для преобразования. Насколько мне известно, эти конвертеры не генерируют изображение, но они генерируют видимый текст.
XMP - это метаданные, а не визуальные.
И, наконец, что касается вашего вопроса об определении наличия в PDF текстовых данных, вот [аналогичный вопрос - удален с тех пор].