Преобразовать файлы .odt.doc.ods в файлы .txt.

Я хочу преобразовать весь .odt.doc..xls.pdf файлы в .txt файлы Я хочу преобразовать эти файлы в текстовые файлы с помощью оболочки script или perl script

Ответы

Ответ 1

Там есть программа для файлов odt и alikes:

odt2txt - доступен в репозиториях.

Ответ 2

$ unoconv --format=txt document1.odt

Должен выдавать document1.txt.

Ответ 3

OpenOffice имеет встроенный конвертер документов, способный обрабатывать множество форматов. Посмотрите на unoconv: http://dag.wieers.com/home-made/unoconv/ p >

Сказано, что у меня были некоторые проблемы с тем, чтобы работать в прошлом. Если у вас возникли проблемы, взгляните на аналогичные программы для AbiWord (другой текстовый процессор с открытым исходным кодом).

Ответ 4

Конечно, это возможно, хотя есть что-то странное и непроницаемое в отношении проекта OO и его документации, которая делает такие вещи трудными для исследования и последующего изучения. Однако OO имеет возможность конвертировать все эти типы, а не только собственные OO, и может делать это с помощью двух различных форм автоматического управления.

Это два общих подхода.

  • Вы можете запустить OO и сообщить ему, чтобы выполнить макрос, который выполняет это задание для вас для данного файла. Затем вам просто нужно написать макрос и script для обработки ваших файлов. Синтаксис похож на

    $oowriter -headless filename macro://dir/Standard.Module1.sMySub

  • Другая вещь OO - это сетевой API. Это основано на том, что называется UNO.

    $oowriter -accept = accept-string

    Notifies  the  OpenOffice.org software that upon the creation of
    "UNO Acceptor Threads", a "UNO Accept String" will be used.
    

Вам понадобится какая-то клиентская библиотека. Я думаю, что у них есть один для Python. Используя эту технологию, программа Python или другой язык сценариев с клиентской библиотекой OO могут управлять программой и преобразовывать все файлы. Поскольку OO читает MSO, он должен иметь возможность делать все.

Ответ 5

Для текстовых документов вы можете попробовать antiword, по крайней мере, на linux. Это утилита командной строки, которая принимает текстовый документ как аргумент и выплескивает текст из этого документа (насколько это возможно) на стандартный вывод. Возможно, вы также можете указать выходной файл. Я не могу вспомнить детали того, как это работает. Я не использовал его через некоторое время. Не уверен, может ли он обрабатывать документы OO.

Ответ 7

Открыть файл .ods обычно в офисе libre

Выделите текст для преобразования

Откройте терминал

Запустить vi

Нажмите "i", чтобы получить режим вставки

Нажмите ctrl-shift-v

Готово!

Нужно какое-то форматирование?

Сохраните файл как

Выйти из vi

Run:

$cat | column > filename2

Это работало в opensuse, выполняющем KDE

Заменить "kwrite" для "vi", если вы хотите