Как извлечь простой текст из файла DOCX с помощью новой поддержки OOXML в Apache POI 3.5?

28 сентября 2009 года проект Apache POI опубликовал версию 3.5, которая официально поддерживает форматы OOXML, представленные в Office 2007, такие как DOCX и XLSX.

Просьба представить образец кода для извлечения содержимого файла DOCX в виде обычного текста, игнорируя любые стили или форматирование.

Я спрашиваю об этом, потому что мне не удалось найти примеры POI Apache, охватывающие новую поддержку OOXML.

Ответы

Ответ 1

Это сработало для меня. Убедитесь, что вы добавили необходимые банки (обновить xmlbeans и т.д.).

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}

Ответ 2

Это более общий

POITextExtractor poitex = ExtractorFactory.createExtractor(in);

return poitex.getText();