Ответ 1
Вы обязательно должны посмотреть на мой ответ:
а также посмотреть все ссылки, включенные в него.
Tabula/TabulaPDF в настоящее время является лучшим инструментом для извлечения таблицы, который доступен для очистки PDF файлов.
Существуют ли библиотеки с открытым исходным кодом, которые поддерживают идентификацию и извлечение таблицы?
Под этим я подразумеваю:
Я просмотрел похожие вопросы по этой теме и нашел следующее:
В настоящее время я думаю, что мне пришлось бы потратить много времени на разработку решения машинного обучения для определения структур таблиц из PDF файлов. Поэтому любые альтернативные подходы были бы более чем приветствуются!
Вы обязательно должны посмотреть на мой ответ:
а также посмотреть все ссылки, включенные в него.
Tabula/TabulaPDF в настоящее время является лучшим инструментом для извлечения таблицы, который доступен для очистки PDF файлов.
После многих плодотворных часов изучения библиотек OCR, ограничивающих блоков и алгоритмов кластеризации - я нашел решение настолько простым, что вы хотите плакать!
Надеюсь, вы используете Linux,
pdftotext -layout NAME_OF_PDF.pdf
AMAZING!!
Теперь у вас есть хороший текстовый файл со всей информацией, выстроенной в хороших столбцах, теперь тривиально форматировать в csv и т.д.
Именно в такие моменты, когда я люблю Linux, эти ребята придумали решения для всех и поставили их БЕСПЛАТНО!
Я просто хотел бы добавить к очень полезному ответу от Kurt Pfeifle: теперь есть оболочка Python для Tabula, и это пока работает очень хорошо: https://github.com/chezou/tabula-py
Это преобразует вашу таблицу PDF в фреймворк Pandas. Вы также можете установить область в координатах x, y, что, очевидно, очень удобно для нерегулярных данных.