Разбор файлов Microsoft Office в Node.JS
Я работаю над веб-приложением, где пользователи могут загружать файлы Microsoft Office Document. Прямо сейчас наш сервер работает Node.JS с Express.js, и мы размещаемся на Heroku. Из-за этого я не думаю, что могу установить такие программы, как abiword или catdoc. Я могу обрабатывать загрузки файлов, но не могу разобрать содержимое документа.
Как я могу прочитать содержимое файла doc? Затем информация будет помещена в базу данных. Было бы неплохо сохранить базовое форматирование (жирный, курсив, подчеркивание), но не обязательно.
Ответы
Ответ 1
Хотя вам не кажется, что вы можете получить NPM, который будет делать Word напрямую, вы можете использовать REST API для запроса его через другую облачную службу. Например Saaspose (они из известных инструментов Aspose) имеют открытый API для Word, Excel, PDF и другие. Они перечисляют node.js, javascript и поддержку Heroku на своей странице.
ИЗМЕНИТЬ:
Я вижу, что Saaspose теперь называется Aspose for Cloud
Другой API, который утверждает что-то подобное, Doxument
Ответ 2
Office package: npm install office
представляется как минимум частью ответа. Я использую его для чтения файлов Excel, до сих пор не пробовал никаких документов Word.
Ответ 3
Пока еще ничего не существует. См. Ниже то, что может помочь.
Могу ли я читать документы PDF или Word с помощью Node.js?