Как извлечь простой текст из файла DOCX с помощью новой поддержки OOXML в Apache POI 3.5?
28 сентября 2009 года проект Apache POI опубликовал версию 3.5, которая официально поддерживает форматы OOXML, представленные в Office 2007, такие как DOCX и XLSX.
Просьба представить образец кода для извлечения содержимого файла DOCX в виде обычного текста, игнорируя любые стили или форматирование.
Я спрашиваю об этом, потому что мне не удалось найти примеры POI Apache, охватывающие новую поддержку OOXML.
Ответы
Ответ 1
Это сработало для меня. Убедитесь, что вы добавили необходимые банки (обновить xmlbeans и т.д.).
public String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}
Ответ 2
Это более общий
POITextExtractor poitex = ExtractorFactory.createExtractor(in);
return poitex.getText();