Как конвертировать PDF файлы в электронные таблицы
Я пытаюсь целый день конвертировать несколько. pdf файлы, которые содержат поток трафика для Сан-Паулу в электронные таблицы, такие как MS Office Excel или LibreOffice Calc в Ubuntu. Когда я открываю файл .pdf с LibreOffice Calc, он открывает LibreOffice Draw, и я не могу получить таблицу.
Самый многообещающий метод, который я нашел, был здесь с pdftotext. Он отлично работает, и я могу получить таблицы в LibreOffice Calc, но вручную настраивая столбцы.
Моя проблема в том, что у меня так много файлов .pdf, что мне потребуется много времени.
Кто-нибудь знает лучший метод?
Ответы
Ответ 1
Другой вариант - использовать Okular (http://okular.kde.org).
Он имеет инструмент выбора таблицы (Ctrl + 5).
Вы можете выбрать таблицу, добавить строки для дополнительных строк и столбцов и скопировать полученную таблицу в буфер обмена.
Это отлично работает для меня.
Ответ 2
Возможно, -layout
будет вам полезен. С помощью этой опции pdftotext
попытается сохранить макет столбца в результирующем текстовом файле.
Теперь вы можете импортировать текстовый файл в LibreOffice Calc с соответствующими настройками импорта. При открытии файла txt
в Calc вам будет предложено проанализировать содержимое файла (см. Снимок экрана ниже). В разделе Separator Options
выберите оба параметра [separated by] Space
и Merge Delimiters
. Таким образом, Calc сможет восстановить структуру столбцов (при условии, что данные ячейки не содержат пробелов).
![text import into calc]()
Ответ 3
Tabula может работать неплохо. PDF не является простым форматом для извлечения структурированной информации, поэтому это не всегда возможно.
Ответ 4
Инструмент под названием Able2Extract - это опция, которая может сделать именно то, что вы хотите, с минимальными ошибками
Ответ 5
Учитывая, сколько времени может потребоваться без лучшей помощи, и что "лучшая помощь доступна", вероятно, составляет менее 200 долларов США, некоторые дополнительные сверхурочные или оплачиваемая неполная работа в течение нескольких часов, если необходимо, могут быть лучше использованы ваше время - если вы не можете найти кого-то, кто сделает конверсию для вас с помощью своего программного обеспечения. Качество преобразования числовых таблиц (без контрольных итогов) является особой проблемой, потому что нет эквивалента проверки орфографии, чтобы помочь с небольшими неточными преобразованиями строк.
Я использую очень старый коммерческий конвертер и примерно через 10 минут преобразовал весь исходный документ с результатами, как показано ниже или аналогичным:
![SO18293175 example]()
Важно отметить, что вывод состоит из 318 листов в одной книге (не все из этого качества выше!) и что заголовки таблиц были отделены от таблиц, что затруднило поиск определенного примера выше, учитывая, что в документе столько таблиц одинакового макета.
Если "кусать пулю", я бы предложил продукт Nuance и отметить упоминание пробной версии (Windows) здесь: http://www.nuance.co.uk/products/pdf-converter-professional/index.htm.
То, что я использую, я бы никогда не думал о покупке (это был подарок), но я очень скоро понял, что я был глуп, чтобы не так долго до. В то время я думал, что у меня есть не более чем случайное требование для PDF в Excel, но теперь благословляйте донора почти ежедневно!