Преобразование pdf, doc, ppt в html5
Я искал googled (без везения) для open source software that can convert doc, ppt, and pdf to HTML5.
(Точно, что Scribd) Есть ли эквиваленты с открытым исходным кодом для тип конверсии Scribd делает?
Если кто-то знает о платной услуге, это также сработает. Scribd имеет API, но для использования с программой просмотра Flash. Кроме того, я бы хотел, чтобы размещал мой собственный контент, так как мне нужен дальнейший контроль над преобразованным html документом.
Ответы
Ответ 1
Вы вряд ли найдете одно предложение, которое сделает все это, особенно в мире с открытым исходным кодом. Скорее всего, вы в конечном итоге полагаетесь на мишмары вещей и даже можете связать некоторые конвертеры, чтобы добраться до HTML. (Например, PDF → ps → HTML)
OpenOffice поддерживает преобразование в HTML и может вызываться из командной строки.
http://pdftohtml.sourceforge.net/ выглядит достаточно хорошо при преобразовании pdf в html.
Для Doc, который является Word ML или OpenXML-форматом, можно предположить, что вы можете использовать преобразования XSLT, поскольку форматы ввода и вывода являются XML. Я видел несколько таблиц стилей, плавающих вокруг сети, которые делают это, но YMMV.
Кстати, почему существует специальное требование для open source? MS Powerpoint уже поддерживает save-as-HTML, например.
Ответ 2
Open Office преобразует pdf в html, но вы получите удар по качеству дизайна.
Я предлагаю либо: Crocodoc в качестве платной услуги (он предоставляет различные варианты для разных платформ, таких как Python, Ruby, Java, PHP Разработчики могут работать над своими API-интерфейсами.) Или ждать официального инструмента Adobe (он работает).
Ответ 3
Для преобразования PDF в HTML pdf2htmlEX кажется довольно хорошим инструментом (смотря на все примеры/образцы):
https://github.com/coolwanglu/pdf2htmlEX
Ответ 4
http://wvware.sourceforge.net/
wvHtml: конвертируйте документ Word в HTML4.0.
Возможно:
http://www.abisource.com/
но в этом случае он выглядит как "open doc" > "export html" вручную, возможно, с помощью плагинов. Не уверен, что вы имеете в виду: "исходное программное обеспечение, которое может конвертировать".
Или это:
http://www.zope.org/Members/sf/NuxDocument
Также pdftohtml предоставит вам выход html-страницы. Но вам придется работать над своим графическим интерфейсом. Поскольку это не кажется очень интерактивным.
Ответ 5
Для pdf есть проект с открытым исходным кодом, созданный mozilla, и это очень хорошо: https://github.com/mozilla/pdf.js/
Вы можете увидеть пример приветствия: https://github.com/mozilla/pdf.js/tree/master/examples/helloworld
Для остальных типов документов я думаю, что LibreOffice говорит, что планирует что-то построить в html5, но пока ничего не сделано.
Ответ 6
Я знаю, что вопрос немного старый, но я нашел новый инструмент с открытым исходным кодом под названием flaxpaper http://flexpaper.devaldi.com/