Извлечение содержимого таблицы из коллекции файлов PDF

У меня есть стек PDF файлов - потенциально сотни или тысячи. Они не все отформатированы одинаково, но любой из них МОЖЕТ иметь одну или несколько таблиц с интересной информацией, которую я хотел бы собирать в отдельную базу данных.

Конечно, я знаю, что мне нужно написать что-то для этого. Perl - вариант для меня - или, возможно, Java. Меня не волнует какой язык, пока он свободен (или дешево с бесплатным пробным периодом, чтобы он соответствовал моим целям).

Я смотрю на CAM:: Parse (используя клубнику Perl), но я не уверен, как использовать его для поиска и извлечения таблиц из файлов. Я полагаю, что у меня есть предпочтение Perl, но на самом деле я хочу что-то, что работает надежно, и с легкостью выполнять строковые манипуляции с.

Что такое хороший подход к чему-то подобному? Я нахожусь в квадрате, поэтому, если java (или python и т.д.) Имеют лучшие крючки, сейчас самое подходящее время узнать об этом. Общие указатели хорошие; стартовый код будет очень предпочтительным.

Ответы

Ответ 1

формат PDF с момента его создания (более 20 лет назад) никогда не должен был быть множеством извлекаемых, значимо структурированных данных.
Его целью было быть надежным визуальным представлением текста, изображений и диаграмм в документе - своего рода цифровая бумага (которая также надежно переносится на реальную бумагу посредством печати). Только позже в его разработке было добавлено больше функций, что должно помочь в извлечении данных еще раз (google для Tagged PDF).
Для некоторых примеров проблем, возникающих при таблицах скремблирования данных из PDF файлов, см. эту статью:
- Почему обновление долларов для документов было настолько сложным
Противоречивая мою точку "1." выше, теперь я говорю это: для удивительной семьи инструментов, которые становятся лучше и лучше от недели к неделе для извлечения табличных данных из PDF файлов (если они не отсканированы), см. следующие ссылки:

Итак: идите искать Tabula. Если какие-либо инструменты могут делать то, что вы хотите, в это время Tabula, вероятно, является одним из лучших для этой работы!

Update

Недавно я создал Asciinema screencast, демонстрирующий использование интерфейса командной строки Tabula для извлечения большой таблицы из PDF как CSV:

(Нажмите на изображение выше, чтобы увидеть его работу. Если он работает слишком быстро, чтобы вы могли прочитать весь текст, используйте кнопку "Пауза" ( || -symbol).)

Здесь размещается:

https://asciinema.org/a/22761