.NET и Hadoop - Что я должен знать/изучать и что доступно?

Мой вопрос касается BigData в .NET. BigData используется для хранения и запроса огромных объемов данных (Facebook, Google, Twitter,...). Примерами BigData являются MapReduce, Hadoop, Dryad и т.д.

Microsoft отказалась от альтернативы Dryad (DryadLinq) в пользу Hadoop (Dryad и статья), поэтому я хотел бы подготовиться к этому и ко всему, что с ним связано.

Что я уже знаю

Что я должен знать больше о релизах и разработке?

Вопросы

Вопрос 1: Что я должен знать о Hadoop, который не уникален для платформы .NET? (как запросить, конкретные шаблоны, архитектура,...) и будет полезно (в среде .NET)

Вопрос 2: Есть ли больше информации о Hadoop на платформе .NET, чем я уже знаю?

Ответы

Ответ 1

Это неопределенный вопрос, поэтому вот смутный ответ:)

Hadoop сам по себе является инструментом для запуска сокращений на карте в кластере, он сильно оптимизирован для производительности, и большая часть этой оптимизации выполняется путем распределения данных таким образом, чтобы это было легко потреблять без каких-либо Пункты ввода/вывода.

для этого вы должны прочитать HDFS и внутренности, объясняющие, как это делается, в двух словах, что происходит, так это то, что входные данные сгруппированы в узлы для локального запуска процессов и чтения последовательно (это свойство/ограничение HDFS).

таким образом вы вводите свой "BigData", и он становится разделенным и обрабатывается наиболее эффективным способом внутри кластера.

теперь, что "все, что есть в Hadoop, есть инструменты, которые работают поверх него, что позволяет выполнять абстракции высокого уровня на данных (map-reduce - это простейшая процедура).

К ним относятся:

Pig http://pig.apache.org/, который является языком для работы с процессом уменьшения карты и построения более сложных операций.
Hive http://hive.apache.org/ похож на предыдущий, но более ориентированный на SQL
Каскадный http://www.cascading.org/ еще один, более ориентированный на поток данных, чем запросы
Cascalog https://github.com/nathanmarz/cascalog на основе каскадирования, написанного в Clojure
HBase http://hbase.apache.org/ тип базы данных NoSQL поверх HDFS
ElephantDB https://github.com/nathanmarz/elephantdb другая база данных NoSQL для Hadoop

Особенности для .Net

Для Hadoop на Azure (.Net) есть введение в msdn здесь с дополнительной информацией здесь, Связано с созданием приложений Hadoop через их платформу. Это только CTP, но, конечно же, это изменится.

Вот еще одна хорошая блогпость о Hadoop и MapReduce с code

Кроме того, существует также компания, которая часто дает информацию о Hadoop: Cloudera, вы должны часто проверять ее для получения дополнительной информации. Для получения дополнительной информации проверьте страницу cloudera, связанную выше, и вы можете просмотреть все концепции Hadoop (это довольно продвинуто)

Я уверен, что это не то, что вы искали, но я понятия не имею, чего вы хотите, по крайней мере, надеюсь, вы сможете проверить несколько новых проектов, которые могут помочь.

также проверьте Storm: https://github.com/nathanmarz/storm он не связан с Hadoop, но работает в сценариях реального времени, для которых Hadoop не подходит.

Ответ 2

На данный момент для Hadoop нет особого специфического материала .NET. Вы просто следуете обычным учебникам Hadoop. Коннектор SQL Server позволяет вам импортировать входные данные и экспортировать результаты в формат, который легче получить для остальной части вашего приложения.

Вы можете запускать Hadoop в Windows. Однако для этого требуется Cygwin (Unix-подобная среда и интерфейс командной строки для Microsoft Windows).