Преобразуйте в PDF/A и проверьте соответствие Linux
Я работаю над онлайн-порталом, где исследователи могут загружать свои исследовательские работы. Одним из требований является то, что все PDF файлы хранятся в формате PDF/A. Поскольку я не могу полагаться на пользователей для создания документов PDF/A, мне нужен инструмент для проверки и преобразования стандартных PDF файлов в формат PDF/A.
Какой лучший инструмент вы знаете?
- Цена
- Качество
- Скорость
- Доступные API
Предпочитаются инструменты с открытым исходным кодом, но поиск не выявил. iText может создавать PDF/a, но конвертировать нелегко, так как вам нужно прочитать каждую страницу и скопировать ее в новый документ, потеряв все закладки и аннотации в этом процессе. (По крайней мере, насколько я знаю, если вы знаете о простом решении, дайте мне знать).
API должны быть доступны либо для PHP, либо для Java, либо для командной строки. Пожалуйста, не указывайте ни GUI-only, ни Online-only решения.
Ответы
Ответ 1
Я не уверен, что все ваши цели могут быть удовлетворены одновременно. История вокруг PDF/A намного сложнее, чем преобразования формата, такие как tiff to png.
- Базовый формат PDF 1.4: что делать с документами с более высокой версией, которые используют функции из этих более высоких версий? Информация может быть потеряна.
- В обоих файлах PDF/A-1a и 1b метаданные в формате XMP/RDF являются обязательными. Если исходный документ без метаданных, вам нужно его получить откуда-нибудь и добавить его. По крайней мере, iText может это сделать.
- Есть много мелких деталей, чтобы получить право, от внедрения шрифтов, чтобы убедиться, что пробелы присутствуют, а не только команды горизонтального перемещения.
Подводя итог: я считаю, что вам лучше поставить какую-то или всю ответственность за соответствие производителям PDF файлов. Конечно, это не значит, что вы не можете им помочь: если вы выясните, какие инструменты большинство используют для создания своих документов, вы можете указать документацию о PDF/A и конкретных инструментах. (в качестве некоторого экстремального примера такой документации смотрите this)
Удачи вам в ваших усилиях.
Ответ 2
Я работал во Французской национальной библиотеке, чтобы создать архивную систему, которая делала подобные вещи. Как большинство из десяти лучших библиотек в мире, мы использовали JHOVE для распознавания форматов файлов.
JHOVE может указать, являются ли файлы PDF/A или нет, и может даже проверить их. Он также знает 7 других видов PDF, см. детали.
JHOVE является открытым исходным кодом, он поддерживается JSTOR и Библиотекой Гарвардского университета. Это довольно просто использовать.
Ответ 3
Для части идентификации вы можете попробовать инструмент Droid (идентификация объекта цифровой записи), который обеспечивает доступ к Технический реестр Pronom (который содержит PDF/A).
Ответ 4
Проект Open API API может быть тем, что вы ищете. Начиная с версии 2.4, Open Office поддерживает документы PDF/a. Вот пример кода на веб-сайте о том, как конвертировать документы, этот пример находится в Java.
Ответ 5
Я не уверен в документах PDF/, но вы посмотрели на jodconverter?
Он может конвертировать много разных форматов для вас, и он является открытым исходным кодом. Мы используем его довольно широко в нашем проекте.
http://www.artofsolving.com/opensource/jodconverter