Hadoop Обучение машинам/идея проекта интеллектуального анализа данных?

Я студент-выпускник CS (Data mining и машинное обучение) и хорошо разбираюсь в ядре Java ( > 4 года). Я прочитал кучу вещей на Hadoop и Map/Reduce

Теперь я хотел бы сделать проект на этом материале (в течение моего свободного времени), чтобы лучше понять.

Любые хорошие проектные идеи будут действительно оценены. Я просто хочу сделать это, чтобы учиться, поэтому я действительно не возражаю против изобретательства колеса. Кроме того, все, что связано с интеллектуальным анализом данных/машинным обучением, будет дополнительным бонусом (соответствует моим исследованиям), но абсолютно не обязательно.

Ответы

Ответ 1

Вы ничего не писали о ваших интересах. Я знаю, что алгоритмы в горном графике реализованы в рамках hadoop. Это программное обеспечение http://www.cs.cmu.edu/~pegasus/ и документ: "PEGASUS: система гранулометрического графа - реализация и наблюдения" может дать вам отправную точку.

Далее, эта ссылка обсуждает что-то похожее на ваш вопрос: http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/, но он находится в python. И есть очень хорошая статья Эндрю Нг "Map-Reduce для машинного обучения на многоядерном компьютере".

Был проведен семинар NIPS 2009 по аналогичной теме "Масштабное машинное обучение: Parallelism и массивные наборы данных". Вы можете просмотреть часть бумаги и получить представление.

Изменить: Также есть Apache Mahout http://mahout.apache.org/ → "Наши основные алгоритмы для кластеризации, классификации классов и пакетной фильтрации совместной работы реализованы поверх Apache Hadoop с использованием парадигмы map/reduce"

Ответ 3

Почему бы вам не внести вклад в Apache Hadoop/Mahout, помогая им реализовать дополнительные алгоритмы?

https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms

Имеет ряд алгоритмов, обозначенных как "открыто". Насколько я понимаю, они могли бы использовать помощь в их реализации? И есть сотни алгоритмов, даже отсутствующих в этом списке.

Каким-либо образом, поскольку вы хотите что-то сделать с Hadoop, почему бы вам не спросить их, что им нужно, а не спрашивать на каком-то случайном интернет-сайте?

Ответ 4

Попытка думать об эффективном способе реализации иерархического агломерационного кластеризации на Hadoop - хороший проект для работы. Он не только включает алгоритмические аспекты, но также имеет оптимизацию, связанную с основной картой hasoop.