Как удалить все изображения/рисунки из файла PDF и оставить текст только на Java?
У меня есть файл PDF, который выводит из OCR-процессора, этот OCR-процессор распознает изображение, добавляет текст в pdf, но в конце помещает изображение низкого качества вместо оригинального (я понятия не имею, почему кто-то будут делать это, но они это делают).
Итак, я хотел бы получить этот PDF файл, удалить поток изображений и оставить текст в покое, чтобы я мог его получить и импортировать (используя функцию импорта страницы iText) в PDF файл, который я создаю себе с реальным изображением.
И прежде чем кто-то спросит, я уже пытался использовать другой инструмент для извлечения текстовых координат (JPedal), но когда я рисую текст в моем PDF файле, он не находится в том же положении, что и исходный.
Я бы предпочел сделать это на Java, но если другой инструмент может сделать это лучше, просто дайте мне знать. И это может быть только удаление изображений, я могу жить с PDF с рисунками там.
Ответы
Ответ 1
Я использовал Apache PDFBox в аналогичной ситуации.
Чтобы быть немного более конкретным, попробуйте что-то вроде этого:
import org.apache.pdfbox.exceptions.COSVisitorException;
import org.apache.pdfbox.exceptions.CryptographyException;
import org.apache.pdfbox.exceptions.InvalidPasswordException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDDocumentCatalog;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import java.io.IOException;
public class Main {
public static void main(String[] argv) throws COSVisitorException, InvalidPasswordException, CryptographyException, IOException {
PDDocument document = PDDocument.load("input.pdf");
if (document.isEncrypted()) {
document.decrypt("");
}
PDDocumentCatalog catalog = document.getDocumentCatalog();
for (Object pageObj : catalog.getAllPages()) {
PDPage page = (PDPage) pageObj;
PDResources resources = page.findResources();
resources.getImages().clear();
}
document.save("strippedOfImages.pdf");
}
}
Предполагается удалить все типы изображений (png, jpeg,...). Он должен работать следующим образом:
Пример статьи http://s3.postimage.org/28f6boykk/before.jpg.
Ответ 2
Вам необходимо проанализировать документ следующим образом:
public static void strip(String pdfFile, String pdfFileOut) throws Exception {
PDDocument doc = PDDocument.load(pdfFile);
List pages = doc.getDocumentCatalog().getAllPages();
for( int i=0; i<pages.size(); i++ ) {
PDPage page = (PDPage)pages.get( i );
// added
COSDictionary newDictionary = new COSDictionary(page.getCOSDictionary());
PDFStreamParser parser = new PDFStreamParser(page.getContents());
parser.parse();
List tokens = parser.getTokens();
List newTokens = new ArrayList();
for(int j=0; j<tokens.size(); j++) {
Object token = tokens.get( j );
if( token instanceof PDFOperator ) {
PDFOperator op = (PDFOperator)token;
if( op.getOperation().equals( "Do") ) {
//remove the one argument to this operator
// added
COSName name = (COSName)newTokens.remove( newTokens.size() -1 );
// added
deleteObject(newDictionary, name);
continue;
}
}
newTokens.add( token );
}
PDStream newContents = new PDStream( doc );
ContentStreamWriter writer = new ContentStreamWriter( newContents.createOutputStream() );
writer.writeTokens( newTokens );
newContents.addCompression();
page.setContents( newContents );
// added
PDResources newResources = new PDResources(newDictionary);
page.setResources(newResources);
}
doc.save(pdfFileOut);
doc.close();
}
// added
public static boolean deleteObject(COSDictionary d, COSName name) {
for(COSName key : d.keySet()) {
if( name.equals(key) ) {
d.removeItem(key);
return true;
}
COSBase object = d.getDictionaryObject(key);
if(object instanceof COSDictionary) {
if( deleteObject((COSDictionary)object, name) ) {
return true;
}
}
}
return false;
}