Извлекать текст из tex, удалять теги латекса
У меня есть некоторые .tex файлы, из которых я хочу получить простой текст без каких-либо латексных тегов, таких как \section {...} или \newpage.
Кто-нибудь знает, как это достичь?
У меня также есть .pdf файл, но когда я просто копирую код оттуда, некоторые слова объединяются, что очень плохо.
Есть ли какой-нибудь инструмент, который вам известен?
Ответы
Ответ 1
detex (1):
Пожалуйста, просмотрите страницу OpenDetex GitHub для последней версии OpenDetex. Это более современная, производная версия моего оригинального DeTeX.
Мое наследие Домашняя страница DeTeX доступна здесь.
Если вам нужен только источник detex-2.8.tar, вы можете получить его здесь.
Ответ 2
opendetex доступен как для Windows, так и для Linux
скачать программу opendetex отсюда
http://opendetex.googlecode.com/files/opendetex-2.8.1.tar.bz2
http://code.google.com/p/opendetex/downloads/list
Использование:
http://code.google.com/p/opendetex/wiki/Usage
извлеките его в любой каталог по вашему выбору.
Скажем, извлеките его в каталог Downloads.
создайте другой каталог любого имени в этом (необязательно, но его хорошо, если вы создаете). скажем, имя каталога - "my_paper". Поместите свою бумагу в каталог "my_paper". скажем, имя вашей страницы project.tex
Перемещение по пути
cd ~/Downloads/opendetex
Запустите команду
detex -n my_paper/project.tex > out.txt
общая форма
detex -n full_path_to_tex_file.tex > output_text_file.txt