Ответ 1
Это неопределенный вопрос, поэтому вот смутный ответ:)
Hadoop сам по себе является инструментом для запуска сокращений на карте в кластере, он сильно оптимизирован для производительности, и большая часть этой оптимизации выполняется путем распределения данных таким образом, чтобы это было легко потреблять без каких-либо Пункты ввода/вывода.
для этого вы должны прочитать HDFS и внутренности, объясняющие, как это делается, в двух словах, что происходит, так это то, что входные данные сгруппированы в узлы для локального запуска процессов и чтения последовательно (это свойство/ограничение HDFS).
таким образом вы вводите свой "BigData", и он становится разделенным и обрабатывается наиболее эффективным способом внутри кластера.
теперь, что "все, что есть в Hadoop, есть инструменты, которые работают поверх него, что позволяет выполнять абстракции высокого уровня на данных (map-reduce - это простейшая процедура).
К ним относятся:
- Pig http://pig.apache.org/, который является языком для работы с процессом уменьшения карты и построения более сложных операций.
- Hive http://hive.apache.org/ похож на предыдущий, но более ориентированный на SQL
- Каскадный http://www.cascading.org/ еще один, более ориентированный на поток данных, чем запросы
- Cascalog https://github.com/nathanmarz/cascalog на основе каскадирования, написанного в Clojure
- HBase http://hbase.apache.org/ тип базы данных NoSQL поверх HDFS
- ElephantDB https://github.com/nathanmarz/elephantdb другая база данных NoSQL для Hadoop
Особенности для .Net
Для Hadoop на Azure (.Net) есть введение в msdn здесь с дополнительной информацией здесь, Связано с созданием приложений Hadoop через их платформу. Это только CTP, но, конечно же, это изменится.
Вот еще одна хорошая блогпость о Hadoop и MapReduce с code
Кроме того, существует также компания, которая часто дает информацию о Hadoop: Cloudera, вы должны часто проверять ее для получения дополнительной информации. Для получения дополнительной информации проверьте страницу cloudera, связанную выше, и вы можете просмотреть все концепции Hadoop (это довольно продвинуто)
Я уверен, что это не то, что вы искали, но я понятия не имею, чего вы хотите, по крайней мере, надеюсь, вы сможете проверить несколько новых проектов, которые могут помочь.
также проверьте Storm: https://github.com/nathanmarz/storm он не связан с Hadoop, но работает в сценариях реального времени, для которых Hadoop не подходит.