Hadoop Обучение машинам/идея проекта интеллектуального анализа данных?
Я студент-выпускник CS (Data mining и машинное обучение) и хорошо разбираюсь в ядре Java ( > 4 года). Я прочитал кучу вещей на Hadoop и Map/Reduce
Теперь я хотел бы сделать проект на этом материале (в течение моего свободного времени), чтобы лучше понять.
Любые хорошие проектные идеи будут действительно оценены. Я просто хочу сделать это, чтобы учиться, поэтому я действительно не возражаю против изобретательства колеса. Кроме того, все, что связано с интеллектуальным анализом данных/машинным обучением, будет дополнительным бонусом (соответствует моим исследованиям), но абсолютно не обязательно.
Ответы
Ответ 1
Вы ничего не писали о ваших интересах.
Я знаю, что алгоритмы в горном графике реализованы в рамках hadoop. Это программное обеспечение http://www.cs.cmu.edu/~pegasus/ и документ: "PEGASUS: система гранулометрического графа - реализация и наблюдения" может дать вам отправную точку.
Далее, эта ссылка обсуждает что-то похожее на ваш вопрос: http://atbrox.com/2010/02/08/parallel-machine-learning-for-hadoopmapreduce-a-python-example/, но он находится в python.
И есть очень хорошая статья Эндрю Нг "Map-Reduce для машинного обучения на многоядерном компьютере".
Был проведен семинар NIPS 2009 по аналогичной теме "Масштабное машинное обучение: Parallelism и массивные наборы данных". Вы можете просмотреть часть бумаги и получить представление.
Изменить: Также есть Apache Mahout http://mahout.apache.org/ → "Наши основные алгоритмы для кластеризации, классификации классов и пакетной фильтрации совместной работы реализованы поверх Apache Hadoop с использованием парадигмы map/reduce"
Ответ 2
См. http://www.quora.com/Machine-Learning/What-are-some-good-class-projects-for-machine-learning-using-MapReduce
и некоторые хорошие проекты игрушек для начала: http://www.quora.com/Programming-Challenges-1/What-are-some-good-toy-problems-in-data-science
Ответ 3
Почему бы вам не внести вклад в Apache Hadoop/Mahout, помогая им реализовать дополнительные алгоритмы?
https://cwiki.apache.org/confluence/display/MAHOUT/Algorithms
Имеет ряд алгоритмов, обозначенных как "открыто". Насколько я понимаю, они могли бы использовать помощь в их реализации? И есть сотни алгоритмов, даже отсутствующих в этом списке.
Каким-либо образом, поскольку вы хотите что-то сделать с Hadoop, почему бы вам не спросить их, что им нужно, а не спрашивать на каком-то случайном интернет-сайте?
Ответ 4
Попытка думать об эффективном способе реализации иерархического агломерационного кластеризации на Hadoop - хороший проект для работы. Он не только включает алгоритмические аспекты, но также имеет оптимизацию, связанную с основной картой hasoop.