Ответ 1
Формат документа Word (игнорируя docx на данный момент) ужасен и постоянно меняется. IMHO, поэтому есть так мало (читайте: ноль) библиотеки Ruby, чтобы их разобрать.
Я рекомендую использовать JRuby и некоторые из установленных библиотек Java для чтения формата документа. Google должен помочь вам: http://schmidt.devlib.org/java/libraries-word.html.
Существует проект Java для чтения форматов файлов MIcrosoft, POI (http://poi.apache.org/), и у них есть привязки Ruby (http://poi.apache.org/poi-ruby.html), но я не уверен, насколько это актуально. На их сайте говорится, что привязки Ruby для 1.8.2...