Ответ 1
-
формат PDF с момента его создания (более 20 лет назад) никогда не должен был быть множеством извлекаемых, значимо структурированных данных.
-
Его целью было быть надежным визуальным представлением текста, изображений и диаграмм в документе - своего рода цифровая бумага (которая также надежно переносится на реальную бумагу посредством печати). Только позже в его разработке было добавлено больше функций, что должно помочь в извлечении данных еще раз (google для Tagged PDF).
-
Для некоторых примеров проблем, возникающих при таблицах скремблирования данных из PDF файлов, см. эту статью:
-
Противоречивая мою точку "1." выше, теперь я говорю это: для удивительной семьи инструментов, которые становятся лучше и лучше от недели к неделе для извлечения табличных данных из PDF файлов (если они не отсканированы), см. следующие ссылки:
Итак: идите искать Tabula. Если какие-либо инструменты могут делать то, что вы хотите, в это время Tabula, вероятно, является одним из лучших для этой работы!
Update
Недавно я создал Asciinema screencast, демонстрирующий использование интерфейса командной строки Tabula для извлечения большой таблицы из PDF как CSV:
(Нажмите на изображение выше, чтобы увидеть его работу. Если он работает слишком быстро, чтобы вы могли прочитать весь текст, используйте кнопку "Пауза" ( ||
-symbol).)
Здесь размещается: