Прецеденты использования в реальном мире

Новичок здесь с Hadoop. Концепция разумная, ее довольно просто понять, однако одной из реальных проблем является то, как смоделировать проблему, которая будет решена в архитектуре уменьшения карты. Предположим, что мои данные содержат две части (все в оракуле): 1. Скорее статические данные, которые не сильно меняются 2. Свежие данные, собранные каждый день.

и в настоящее время обработка данных в основном считывает свежие данные, находит и использует соответствующие статические данные (или метаданные) и применяет к ним некоторый алгоритм и возвращает его обратно в Oracle.

Как смоделировать такую прикладную парадигму? Сохранять/хранить статические данные как часть распределенного кеша? Что делать, если эти данные довольно большие?

В основном я ищу еще несколько примеров: http://stevekrenzel.com/finding-friends-with-mapreduce

Спасибо,

Ответы

Ответ 1

В основном требование состоит в объединении двух наборов данных. Для программирования MapReduce требуется другое мышление, чем обычное программирование. Вот несколько ссылок на объединение и некоторые другие шаблоны поверх MapReduce

Возвращаясь к объединению, он может иметь несколько способов, основанных на количестве данных и способах их хранения. Вышеуказанные ссылки имеют более одинаковую.

Ответ 2

Мы собираем реальные случаи использования здесь: http://hadoopilluminated.com/hadoop_book/Hadoop_Use_Cases.html

мы уже имеем хороший охват нескольких доменов и будем продолжать добавлять к нему.

(отказ от ответственности: я являюсь соавтором этой бесплатной книги о хаосе)

Ответ 3

Я бы посмотрел следующую статью о шаблонах Map/Reduce, которая должна дать вам хорошее представление об общих алгоритмах и их переводе в Карта/Уменьшить мир.

В более общем плане, я не думаю, что есть магическая формула для перевода проблемы в набор Map/Reduce, вы должны задать себе вопросы, которые варьируются от набора данных к набору данных, глядя на существующие примеры - это хорошо, и вы должны обязательно попытаться реализовать что-то по маленькой проблеме с игрушками.

Также, если у вас возникли проблемы с абстрагированием проблемы с набором заданий Map/Reduce, вы также можете использовать, например, Hive, который работает как реляционная база данных с несколькими настройками, и создает для вас задания Map/Reduce, не беспокоясь слишком много о том, что происходит.