Ответ 1
Я бы заглянул в IronPython, который по сути имеет доступ к окнам/офисным API, потому что он работает на .NET runtime.
Возможно ли читать и записывать файлы Word (2003 и 2007) в Python без использования COM-объекта?
Я знаю, что могу:
f = open('c:\file.doc', "w")
f.write(text)
f.close()
но Word будет считать это HTML файлом, а не родным .doc файлом.
Я бы заглянул в IronPython, который по сути имеет доступ к окнам/офисным API, потому что он работает на .NET runtime.
См. python-docx, его официальная документация доступна здесь.
Это очень сработало для меня.
Если вы только читаете, простейший использовать команду linux soffice для ее преобразования в текст, а затем загружать текст в python:
doc (Word 2003 в этом случае) и docx (Word 2007) - это разные форматы, где последний обычно представляет собой архив xml и файлов изображений. Я бы предположил, что очень легко писать файлы docx, манипулируя содержимым этих xml файлов. Однако я не вижу, как вы могли читать и записывать в файл документа без какого-либо интерфейса COM-компонента.