HBase & Mahout - использование HBase в качестве хранилища данных/источника для Mahout - классификация
Я работаю над большим проектом классификации текста, и у нас есть наши текстовые данные (простые сообщения), хранящиеся в HBase.
У нас есть две проблемы: сначала мы хотели бы использовать HBase в качестве источника классификаторов Mahout, а именно Bayers и Random Forests.
Во-вторых, мы хотели бы иметь возможность хранить модель, сгенерированную в HBase, вместо использования подхода in-памяти (InMemoryBayesDatastore), однако по мере роста наших наборов мы сталкиваемся с проблемами использования памяти и хотели бы протестировать HBase как жизнеспособной альтернативой.
Похоже, что с использованием HBase с Mahout мало материала, и если можно использовать его в качестве потенциального источника данных. Я использую API-интерфейс Mahout 0.6 на Java, который имеет хранилище данных InMemory.
Выполняя немного копания, я верю, что там был компонент HBase Bayers Datastore - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore
См. более старый JavaDoc здесь: http://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout-core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html
Однако, глядя на последнюю документацию, похоже, что эта функция исчезла..? https://builds.apache.org/job/Mahout-Quality/javadoc/
Я хотел знать, можно ли использовать HBase в качестве источника данных для Bayers и RandomForests и есть ли в нем предыдущие случаи использования?
Спасибо!
Ответы
Ответ 1
Это невозможно, нет. Вы можете возродить эту старую реализацию, пыль и, возможно, заставить ее работать без особых проблем. Это действительно было удалено, чтобы сгладить и сфокусировать проект.
Разумеется, вы можете также экспортировать свои данные в той или иной форме и добавить их в представление или хранилище, которое поддерживается напрямую.
В общем, вы можете использовать HBase с Mahout в силу того факта, что Mahout использует Hadoop (в основном), а Hadoop может использовать HBase. Это не совсем такая ситуация; здесь существует более прямая интегральная точка, которая устарела.