Скребок PDF с использованием R

Я успешно использовал пакет XML для извлечения HTML-таблиц, но хочу перейти к PDF файлам. Из предыдущих вопросов не представляется, что существует простое решение R, но задавались вопросом, были ли какие-либо недавние разработки

В противном случае, есть ли какой-то способ в Python (в котором я полный новичок), чтобы получить и манипулировать PDF файлами, чтобы я мог закончить работу с R-пакета XML

Ответы

Ответ 1

Извлечение текста из PDF файлов сложно и почти всегда требует большой осторожности.

Я бы начал с инструментов командной строки, таких как pdftotext, и посмотрел, что они выплюнули. Проблема в том, что PDF файлы могут хранить текст в любом порядке, могут использовать неудобные кодировки шрифтов и могут делать такие вещи, как использовать символы лигатуры (объединенные "ff" и "ij", которые вы видите в правильной верстки), чтобы бросить вас.

pdftotext устанавливается на любой Linux-системе...

Ответ 2

Возможно, вы захотите проверить текстовый интеллектуальный пакет tm. Я помню, что они реализовали так называемых читателей, а также для PDF файлов.

Ответ 3

AFAIK нет простого способа превратить таблицы PDF во что-то полезное для анализа данных. Вы можете использовать Data Science Toolkit Утилита File to Text (интерфейс R через RDSTK), затем проанализируйте полученный текст. Будьте осторожны: разбор часто бывает нетривиальным.

EDIT: есть полезное обсуждение конвертации PDF файлов в XML на discerning.com. Короткий ответ: вам, вероятно, придется покупать коммерческий инструмент.

Ответ 4

Сердце приложения tabula, которое может извлекать таблицы из документов PDF, доступно в виде простой командной строки Java-приложения, tabula-extractor.

Это приложение Java было завернуто в R пакетом tabulizer. Передайте ему путь к файлу PDF, и он попытается извлечь таблицы данных для вас и вернуть их в виде данных.

В качестве примера см. Когда документы становятся базами данных - Tabulizer R Wrapper для Tabula PDF Table Extractor.