Преобразуйте в PDF/A и проверьте соответствие Linux

Я работаю над онлайн-порталом, где исследователи могут загружать свои исследовательские работы. Одним из требований является то, что все PDF файлы хранятся в формате PDF/A. Поскольку я не могу полагаться на пользователей для создания документов PDF/A, мне нужен инструмент для проверки и преобразования стандартных PDF файлов в формат PDF/A.

Какой лучший инструмент вы знаете?

Цена
Качество
Скорость
Доступные API

Предпочитаются инструменты с открытым исходным кодом, но поиск не выявил. iText может создавать PDF/a, но конвертировать нелегко, так как вам нужно прочитать каждую страницу и скопировать ее в новый документ, потеряв все закладки и аннотации в этом процессе. (По крайней мере, насколько я знаю, если вы знаете о простом решении, дайте мне знать).

API должны быть доступны либо для PHP, либо для Java, либо для командной строки. Пожалуйста, не указывайте ни GUI-only, ни Online-only решения.

Ответы

Ответ 1

Я не уверен, что все ваши цели могут быть удовлетворены одновременно. История вокруг PDF/A намного сложнее, чем преобразования формата, такие как tiff to png.

Базовый формат PDF 1.4: что делать с документами с более высокой версией, которые используют функции из этих более высоких версий? Информация может быть потеряна.
В обоих файлах PDF/A-1a и 1b метаданные в формате XMP/RDF являются обязательными. Если исходный документ без метаданных, вам нужно его получить откуда-нибудь и добавить его. По крайней мере, iText может это сделать.
Есть много мелких деталей, чтобы получить право, от внедрения шрифтов, чтобы убедиться, что пробелы присутствуют, а не только команды горизонтального перемещения.

Подводя итог: я считаю, что вам лучше поставить какую-то или всю ответственность за соответствие производителям PDF файлов. Конечно, это не значит, что вы не можете им помочь: если вы выясните, какие инструменты большинство используют для создания своих документов, вы можете указать документацию о PDF/A и конкретных инструментах. (в качестве некоторого экстремального примера такой документации смотрите this)

Удачи вам в ваших усилиях.

Ответ 2

Я работал во Французской национальной библиотеке, чтобы создать архивную систему, которая делала подобные вещи. Как большинство из десяти лучших библиотек в мире, мы использовали JHOVE для распознавания форматов файлов.

JHOVE может указать, являются ли файлы PDF/A или нет, и может даже проверить их. Он также знает 7 других видов PDF, см. детали.

JHOVE является открытым исходным кодом, он поддерживается JSTOR и Библиотекой Гарвардского университета. Это довольно просто использовать.

Ответ 3

Для части идентификации вы можете попробовать инструмент Droid (идентификация объекта цифровой записи), который обеспечивает доступ к Технический реестр Pronom (который содержит PDF/A).

Ответ 4

Проект Open API API может быть тем, что вы ищете. Начиная с версии 2.4, Open Office поддерживает документы PDF/a. Вот пример кода на веб-сайте о том, как конвертировать документы, этот пример находится в Java.

Ответ 5

Я не уверен в документах PDF/, но вы посмотрели на jodconverter? Он может конвертировать много разных форматов для вас, и он является открытым исходным кодом. Мы используем его довольно широко в нашем проекте.

http://www.artofsolving.com/opensource/jodconverter