Как анализировать текстовые документы с помощью рубина?

Кто-нибудь знает библиотеку, которую я могу использовать в OS X/Linux для анализа файлов Word и вывода содержимого в формате HTML?

Я посмотрел на win32ole, но насколько я вижу это только для Windows, хотя я мог ошибаться.

Любые предложения?

Ответы

Ответ 1

Формат документа Word (игнорируя docx на данный момент) ужасен и постоянно меняется. IMHO, поэтому есть так мало (читайте: ноль) библиотеки Ruby, чтобы их разобрать.

Я рекомендую использовать JRuby и некоторые из установленных библиотек Java для чтения формата документа. Google должен помочь вам: http://schmidt.devlib.org/java/libraries-word.html.

Существует проект Java для чтения форматов файлов MIcrosoft, POI (http://poi.apache.org/), и у них есть привязки Ruby (http://poi.apache.org/poi-ruby.html), но я не уверен, насколько это актуально. На их сайте говорится, что привязки Ruby для 1.8.2...