PDF для HTML Mac

Есть ли программное обеспечение для mac os X 10.6.4, которое преобразует PDF в HTML?

Ответы

Ответ 1

PDF файлы сложны, когда-либо пытались открыть один в VI? Да, все это нелепо для меня тоже. PDF файлы сделаны (частично), используя PostScript для генерации макета, что означает, что PS должен интерпретироваться для генерации этого макета. Кроме того, шрифты, изображения и другие файлы включены в документ pdf. В значительной степени противоположность того, что такое HTML.

Если вы хотите освободиться от командной строки и использовать уже установленную (10.4 или более позднюю) программу Automator, пойдите прямо вперед, вы можете использовать действие "extract pdf text" для экспорта pdf-текста в rtf файл, который можно легко преобразовать в HTML. Если вы хотите автоматизировать преобразование RTF в HTML, я бы рекомендовал JOD Converter в сочетании с OpenOffice.org.

Если ваши pdf файлы немного сложнее, как и решение. Я бы не хотел упоминать коммерческое решение для StackOverflow, но программное обеспечение ABBYY FineReader будет самым лучшим для вас, с корпоративной или корпоративной версией вы можете даже автоматизировать преобразование PDF, но домашняя версия будет очень удобной для преобразования любого PDF в HTML.

Ответ 2

pdftohtml выглядит так, как будто он делает то, что вы хотите:

pdftohtml - это утилита, которая преобразует PDF файлы в HTML и XML-форматы.

Если у вас установлен MacPorts, просто выполните следующую команду в терминале для установки:

sudo port install pdftohtml

Обновление:

В эти дни я бы рекомендовал использовать Homebrew:

brew install pdftohtml

Ответ 3

Это зависит от ваших ожиданий - упомянутые выше библиотеки будут выполнять как работу, так и возможно, но, как отмечает Марк Стивенс, результаты часто разочаровывают.

Основная причина заключается в том, что в качестве форматов две вещи имеют противоречивые цели.

PDF посвящен сохранению макета за счет содержания и структуры.

HTML и CSS - полная противоположность - реальный физический рендеринг может значительно измениться по мере изменения размера страницы, но содержание и взаимосвязь элементов сохраняются даже ценой эстетики.

В типичном PDF-документе, а не в пунктах текста, у нас есть объекты, помещенные в координаты X/Y.

Эти объекты могут быть строками, но программа просмотра PDF не имеет понятия о том, как линии объединяются, чтобы сформировать абзацы и т.д., просто чтобы они рисовали эти символы, начиная с этой координаты.

Другие способы взглянуть на него:

В OS X графический слой Quartz также известен как "Display PDF" - это слой под Safari - это то, что преобразуются в HTML и CSS, когда они преобразуют текущий макет во что-то, что нужно показать на экране.

В вариантах набора текста PDF является страницей выложенного типа, готовым перейти к принтеру, а не рукописью.

Таким образом, любой конвертер PDF-to-Html или Pdf-to-text должен попытаться "прочитать" текст и вывести скрытую структуру компоновки исключительно из того, что она может "видеть". Это похоже на то, что человек пытается создать макет HTML и CSS из печатной копии журнала.

Поэтому выбор текста из PDF-документа с несколькими столбцами затруднен, особенно если на странице есть такие вещи, как кавычки пробоя, встроенные рекламные объявления и т.д. Он начинает становиться проблемой ИИ.

Ответ 4

Вы можете найти результаты разочаровывающие. Я на самом деле написал статью о проблемах конвертации PDF в HTML в нашем блоге (http://www.jpedal.org/PDFblog/?p=402)

Ответ 6

Mac PDF Converter прост в использовании для пользователей Apple Mac для конвертирования PDF файлов в Word, Excel, PowerPoint, EPUB, Text и HTML.

Ответ 7

Возможно, вы можете попробовать этот, simpo pdf converter для mac, он поддерживает преобразование pdf в html на mac os x 10.6 - 10.8 (как описание разработчика).

Здесь является официальным сайтом этого программного обеспечения, вы можете попробовать его.

Ответ 8

brew install pdf2htmlex

https://github.com/coolwanglu/pdf2htmlEX

Это лучшее, что я мог найти, но он уже не находится в активном развитии.

Ответ 9

Это приложение простое в использовании и позволяет без проблем работать даже новому пользователю. На самом деле это инструмент для конвертации нескольких электронных писем, специально разработанный для выполнения преобразования файлов электронной почты различных типов в несколько известных форматов электронной почты, таких как PST, DBX, Файлы MSG и EML в форматах RTF, MSG, PST, EML, DBX и HTML.

Ссылка для скачивания: - http://www.filesrecoverytool.com/email-converter.html