Скребок PDF с использованием R
Я успешно использовал пакет XML для извлечения HTML-таблиц, но хочу перейти к PDF файлам. Из предыдущих вопросов не представляется, что существует простое решение R, но задавались вопросом, были ли какие-либо недавние разработки
В противном случае, есть ли какой-то способ в Python (в котором я полный новичок), чтобы получить
и манипулировать PDF файлами, чтобы я мог закончить работу с R-пакета XML
Ответы
Ответ 1
Извлечение текста из PDF файлов сложно и почти всегда требует большой осторожности.
Я бы начал с инструментов командной строки, таких как pdftotext, и посмотрел, что они выплюнули. Проблема в том, что PDF файлы могут хранить текст в любом порядке, могут использовать неудобные кодировки шрифтов и могут делать такие вещи, как использовать символы лигатуры (объединенные "ff" и "ij", которые вы видите в правильной верстки), чтобы бросить вас.
pdftotext устанавливается на любой Linux-системе...
Ответ 2
Возможно, вы захотите проверить текстовый интеллектуальный пакет tm
. Я помню, что они реализовали так называемых читателей, а также для PDF файлов.
Ответ 3
AFAIK нет простого способа превратить таблицы PDF во что-то полезное для анализа данных. Вы можете использовать Data Science Toolkit Утилита File to Text (интерфейс R через RDSTK), затем проанализируйте полученный текст. Будьте осторожны: разбор часто бывает нетривиальным.
EDIT: есть полезное обсуждение конвертации PDF файлов в XML на discerning.com. Короткий ответ: вам, вероятно, придется покупать коммерческий инструмент.
Ответ 4
Сердце приложения tabula, которое может извлекать таблицы из документов PDF, доступно в виде простой командной строки Java-приложения, tabula-extractor.
Это приложение Java было завернуто в R пакетом tabulizer. Передайте ему путь к файлу PDF, и он попытается извлечь таблицы данных для вас и вернуть их в виде данных.
В качестве примера см. Когда документы становятся базами данных - Tabulizer R Wrapper для Tabula PDF Table Extractor.