Каковы инструменты и методы с открытым исходным кодом для создания полной платформы хранилища данных?
Я ищу эти инструменты с открытым исходным кодом, возможно, бесплатно или с бесплатной пробной версией, чтобы установить полный стек хранилища данных.
Я знаю примерно такие, как Pentaho сервер с открытым исходным кодом Mondrian, но не смог получить какой-либо результат Google для настройки полной платформы. Я не уверен, совместимы ли эти компоненты друг с другом? Может кто-нибудь, пожалуйста, перечислить их вместе со своей позицией в цепочке?
Спасибо.
Ответы
Ответ 1
Сделки с открытым исходным кодом отлично справляется с определением компонентов OSS, которые могут быть использованы для создания стека хранилища данных: Infrastructure (серверы, ОС, базы данных), Управление интеграцией (ETL, EAI и т.д.), Управление информацией (DW/Mart/ODS, OLAP-серверы и т.д.), Доставка информации (портал, панель мониторинга, аналитика/клиент OLAP и т.д.). Вот резюме:
Проекты с открытым исходным кодом BI/DW
BI и аналитика
Базы данных
Интеграция
Я рекомендую просматривать презентацию. Хороший материал.
Ответ 2
Стек хранилища данных (или набор) обычно состоит из трех уровней. Обычно они называются ETL
(погрузка), Database
и Reporting
(интерфейс). Кроме того, существуют несколько более продвинутые инструменты для повышения производительности и потребностей экспертов. Они состоят из Cubes
и Statistical Analysis Tools
.
Что касается взаимодействия, инструменты ETL и инструменты отчетности должны поддерживать любую базу данных, которую вы используете. Однако, поскольку имеется только две большие базы данных с открытым исходным кодом, обычно нет проблем с смешиванием различных решений.
Что касается особенностей -
1 - ETL
Загрузка данных может быть достигнута с помощью инструментов с открытым исходным кодом, таких как интеграция данных Pentaho или Talend (расширение eclipse). Я бы предложил googling "open source etl", чтобы адаптировать решение для ваших конкретных потребностей.
2 - DB
Вам понадобится реляционная база данных (RDBMS). Двумя наиболее известными игроками с открытым исходным кодом являются PostgreSQL (используется Stack Overflow) и MySQL. Хотя MySQL имеет более широкую пользовательскую базу, Postgres получает все большую популярность с тех пор, как внедряет несколько важных функций, которые отсутствовали в более ранних версиях.
3 - Отчетность
Пентахо предлагает платформу для отчетности. Так что BIRT (другое расширение затмения). Опять же, Google является вашим другом для конкретных сравнений. Обратите внимание: когда вы выбираете Pentaho для инструментов ETL и Reporting, вы, вероятно, получите лучшую интеграцию.
Вы также упоминали Mondrian, который является инструментом для генерации запросов MDX по РСУБД. MDX - стандартный язык для запросов кубов.
В этот момент, предполагая, что вы начинаете с нуля, я бы рекомендовал настроить первые два уровня хранилища данных - ETL и DB. Вы можете позже добавить любое количество средств отчетности выше.
Ответ 3
Это еще один подобный вопрос 20 миллиардов строк/месяц - Hbase/Hive/Greenplum/What?
Самая важная часть:
Я не могу этого достаточно подчеркнуть: получить то, что хорошо играет с готовыми инструментами отчетности.
.
Hive или HBase поставили вас в основу создания пользовательского интерфейса, которого вы действительно не хотите, если только вы не будете счастливы потратить следующие 5 лет на создание настраиваемых форм отчетов на Python.
Ответ 4
Развернувшись на том, что написал Паскаль:
Сервер OLAP: Mondrian
AJAX сводные таблицы: Saiku
Дизайнер схемы OLAP: Инструмент Pentaho Schema Workbench
Конструктор агрегатов OLAP: Дизайнер агрегации Pentaho
ETL: Pentaho Kettle
Дизайнер отчетов: Дизайнер отчетов Pentaho
Качество данных: DataCleaner
Столбцовый хранилище данных: MonetDB
Data Mining: RapidMiner
Ответ 5
Качество данных и профилирование - http://sourceforge.net/projects/dataquality/
у него также есть соединение Hive и верстка данных для создания реальных данных.