Ответ 1
К сожалению, Sphinx не может напрямую индексировать эти типы файлов. Вам нужно либо импортировать текстовое содержимое в базу данных, либо в формат XML, который Sphinx может понять.
У меня есть сайт, на котором пользователи загружают документы в формате .doc и .pdf. Я использую Sphinx для полнотекстового поиска в моей базе данных SQL (MySQL). Каков наилучший способ индексирования этих форматов файлов с помощью Sphinx?
К сожалению, Sphinx не может напрямую индексировать эти типы файлов. Вам нужно либо импортировать текстовое содержимое в базу данных, либо в формат XML, который Sphinx может понять.
Метод, который я использую для этого, - pdf2text и antiword. Я использую оба из них, чтобы сбрасывать содержимое PDF файлов и текстовых документов в базу данных. Оттуда легко проползти Сфинкс.
Кто-нибудь использовал Tika для индексации других типов документов, как и плагин SOLR? Apache Tika
Некоторые ссылки: