Как начать с анализа больших данных

Я давно пользовался R и недавно начал работать с Python. Используя обычные системы РСУБД для хранилищ данных и R/Python для хрустания числа, я чувствую, что теперь нужно замалчивать руки с помощью анализа больших данных.

Я хотел бы знать, как начать работу с хрустом больших данных. - Как начать с Map/Reduce и использовать Hadoop

В целом, я хотел бы знать, как начать небольшие и постепенно наращивать свои навыки и ноу-хау в области анализа больших данных.

Спасибо за ваши предложения и рекомендации. Я прошу прощения за общий характер этого запроса, но я хочу получить больше информации относительно этой темы.

Ответы

Ответ 1

Использование проекта Python Disco, например.

Хорошо. Играйте с этим.

Использование пакета RHIPE и поиск наборов игрушек и проблемных областей.

Fine. Играйте с этим тоже.

Не пот, находя "большие" наборы данных. Даже небольшие наборы данных представляют очень интересные проблемы. Действительно, любой набор данных является отправной точкой.

Я когда-то построил небольшую звездную схему для анализа бюджета организации на 60 миллионов долларов. Исходные данные были в электронных таблицах и, по сути, непонятны. Поэтому я выгрузил его в схему звезд и написал несколько аналитических программ на Python для создания упрощенных отчетов соответствующих номеров.

Поиск правильной информации, позволяющей мне решить, нужно ли мне переходить в NoSQL из баз данных типа РСУБД

Это легко.

Во-первых, возьмите книгу о хранилище данных (например, Ральф Кимбалл Инструментарий хранилищ данных).

Во-вторых, внимательно изучите "Звездную схему" - особенно все варианты и особые случаи, которые Кимбалл объясняет (углубленно)

В-третьих, поймите следующее: SQL для обновлений и транзакций.

При выполнении "аналитической" обработки (большой или малой) практически нет никакого обновления. SQL (и соответствующая нормализация) не имеют большого значения.

Точка Kimball (и другие тоже) заключается в том, что большая часть вашего хранилища данных находится не в SQL, а в простых плоских файлах. Массив данных (для ad-hoc, slice-and-dice analysis) может быть в реляционной базе данных, что позволяет легко и гибко обрабатывать SQL.

Таким образом, "решение" тривиально. Если он транзакционный ( "OLTP" ), он должен быть в реляционной или OO-базе данных. Если он аналитичен ( "OLAP" ), он не требует SQL, кроме аналитики slice-and-dice; и даже тогда DB загружается из официальных файлов по мере необходимости.

Ответ 2

Одна вещь, которую вы можете рассмотреть, это программа DMelt (http://jwork.org/dmelt/). Одной из примечательных особенностей является то, что в ней есть сотни примеров с использованием языка Python и нескольких книг. Причина, по которой я его использовал, заключается в том, что он работает на моей Windows 10 (поскольку он использует Java VM), плюс он имеет очень хорошую графику в 2D/3D, которую можно экспортировать в формат векторной графики.