Прецеденты использования в реальном мире
Новичок здесь с Hadoop. Концепция разумная, ее довольно просто понять, однако одной из реальных проблем является то, как смоделировать проблему, которая будет решена в архитектуре уменьшения карты. Предположим, что мои данные содержат две части (все в оракуле): 1. Скорее статические данные, которые не сильно меняются 2. Свежие данные, собранные каждый день.
и в настоящее время обработка данных в основном считывает свежие данные, находит и использует соответствующие статические данные (или метаданные) и применяет к ним некоторый алгоритм и возвращает его обратно в Oracle.
Как смоделировать такую прикладную парадигму? Сохранять/хранить статические данные как часть распределенного кеша? Что делать, если эти данные довольно большие?
В основном я ищу еще несколько примеров:
http://stevekrenzel.com/finding-friends-with-mapreduce
Спасибо,
Ответы
Ответ 1
В основном требование состоит в объединении двух наборов данных. Для программирования MapReduce требуется другое мышление, чем обычное программирование. Вот несколько ссылок на объединение и некоторые другие шаблоны поверх MapReduce
Возвращаясь к объединению, он может иметь несколько способов, основанных на количестве данных и способах их хранения. Вышеуказанные ссылки имеют более одинаковую.
Ответ 2
Мы собираем реальные случаи использования здесь: http://hadoopilluminated.com/hadoop_book/Hadoop_Use_Cases.html
мы уже имеем хороший охват нескольких доменов и будем продолжать добавлять к нему.
(отказ от ответственности: я являюсь соавтором этой бесплатной книги о хаосе)
Ответ 3
Я бы посмотрел следующую статью о шаблонах Map/Reduce, которая должна дать вам хорошее представление об общих алгоритмах и их переводе в Карта/Уменьшить мир.
В более общем плане, я не думаю, что есть магическая формула для перевода проблемы в набор Map/Reduce, вы должны задать себе вопросы, которые варьируются от набора данных к набору данных, глядя на существующие примеры - это хорошо, и вы должны обязательно попытаться реализовать что-то по маленькой проблеме с игрушками.
Также, если у вас возникли проблемы с абстрагированием проблемы с набором заданий Map/Reduce, вы также можете использовать, например, Hive, который работает как реляционная база данных с несколькими настройками, и создает для вас задания Map/Reduce, не беспокоясь слишком много о том, что происходит.