Преимущества баз данных, таких как Greenplum или Vertica, по сравнению с MongoDB или Cassandra

В настоящее время я работаю в нескольких проектах с MongoDB и Apache Cassandra соответственно. Я также много использую Solr, и я обрабатываю "много" данных с ними (примерно 1-2 ТБ). Я слышал о Greenplum и Vertica в первый раз на прошлой неделе, и я не совсем уверен, где положить их в мой мозг. Они мне кажутся такими, как Dataware House (DWH), и я действительно не работал с DWH. И они, кажется, стоят много денег (например, 60 000 долларов за 1 ТБ-хранилище в Greenplum). В настоящее время я не обрабатываю данные Petabyte и не буду этого делать, думаю, но такие продукты, как cassandra, также могут справиться с этим

Cassandra является признанным лидером NoSQL, когда дело доходит до удобно масштабировать до терабайт или петабайт данных.

через http://www.datastax.com/why-cassandra

Итак, мой вопрос: почему люди должны использовать Greenplum и Co? Есть ли огромное преимущество по сравнению с этими другими продуктами?

Спасибо.

Ответы

Ответ 1

Cassandra, Greenplum и Vertica обрабатывают огромное количество данных, но по-разному.

Некоторые из них создавали условия, при которых каждая база данных имеет свои сильные стороны:

Используйте cassandra для:

tweets.insert(key:user, data:blob);
tweets.get(key:user)

Использовать greenplum для:

begin;
update account set balance = balance - 10 where account_id = 1;
update account set balance = balance + 10 where account_id = 2;
commit;

Используйте Vertica для:

select sum(balance)
over (partition by region order by account rows unbounded preceding)
from transactions;

Ответ 2

Я работаю в телекоммуникационной отрасли. Мы имеем дело с большими наборами данных и сложными EDW (корпоративными хранилищами данных). Мы начали с Teradata, и это было хорошо в течение нескольких лет. Затем данные увеличились экспоненциально, и, как вы знаете, расширение в Teradata дорого. Итак, мы оценили EMC, а именно зеленую сливу, оракул exadata, hp Vertica и IBM netteza.

В скорости генерируется 20 отчетов пошел следующим образом: 1. Vertica, 2. Netteza, 3. зеленая слива, 4. оракул

В степени сжатия: Vertica имела естественное преимущество. К тому же IBM тоже хороша. Самое худшее в соответствии с бенчмарками - emc и oracle. Как всегда ожидалось, так как оба хотят продать тонну хранилища и оборудования.

Масштабируемость: все хорошо масштабируются.

Время загрузки: emc является лучшим здесь, другие (teradata, Vertica, oracle, IBM) тоже хороши.

Параллельный запрос пользователя: Vertica, emc, green plum, а затем только IBM. Oracle exadata медленнее в любом типе запросов, сравнительно, но намного лучше, чем его старая школа 10g.

Цена: Teradata > Oracle > IBM > HP > EMC

Примечание. Необходимо сопоставлять яблоко с яблоком, то же самое без ядра, бара, объема данных и отчетов.

Мы выбрали Vertica для аппаратной независимой модели ценообразования, снижения цен и хорошей производительности. Теперь все 40 пользователей счастливы генерировать отчеты, не дожидаясь, и все они подходят для недорогих серверов hp dl380. это отлично подходит для использования в olap/edw.

Весь этот анализ предназначен только для случая edw/analytics/olap. Я все еще поклонник оракула для всех oltp, богатых plsql, подключения и т.д. На любом оборудовании или системе. Exadata дает достойную смешанную рабочую нагрузку, но неразумную в соотношении цена/производительность и по-прежнему необходимо перенести код 10g в передовую практику exadata (вроде MMP, например, массовая обработка и т.д., И ее трудоемкость, чем то, что они требуют).

Ответ 3

Мы работаем в Hadoop в течение 4 лет, а Vertica для 2. У нас были огромные проблемы с загрузкой и индексированием с нашими таблицами в MySQL. Мы работали на испарениях с нашим домашним оштукатующим раствором. Мы могли бы вкладывать значительные средства в разработку более сложного решения осколки, которое было бы довольно болезненным, imo. Мы могли бы подумать о том, какие данные нам абсолютно необходимы для хранения в базе данных SQL.

Но в конце дня переключение с MySQL на Vertica было тем, что мы выбрали. Шаблоны производительности Vertica сильно отличаются от MySQL, и у него есть свои головные боли. Но он может загружать много данных очень быстро, и он хорош в тяжелых запросах, которые заставили бы голову MySQL вращаться.

Как я вижу, Vertica - это решение, когда вы уже инвестировали в SQL и нуждаетесь в более тяжелой базе данных SQL. Я не эксперт, поэтому я не мог сказать вам, какой был бы переход к Oracle или DB2 по сравнению с Vertica, ни с точки зрения интеграции, ни с точки зрения денежных затрат.

Vertica предлагает множество функций, с которыми мы едва смотрели. Это может быть очень привлекательным для других людей с различными вариантами использования.

Ответ 4

Я администратор Vertica и до этого был разработчиком Vertica. Michael Stonebreaker (парень позади Ingres, Vertica и других баз данных) имеет некоторые критические замечания NoSQL, заслуживающие внимания.

В принципе, вот преимущества Vertica, как я их вижу:

довольно быстро на больших объемах данных
производительность аналогична (поэтому я могу собрать) к другим решениям для хранения данных, но преимуществом является кластерное и товарное оборудование. Таким образом, вы можете масштабировать, добавляя больше товарного оборудования. Это выглядит дешево с точки зрения общей стоимости на ТБ. (Исходя из памяти не точная цитата.)
Опять же, это для хранилища данных.
Вы можете использовать традиционные SQL и таблицы. Это под капотом, что разные.

Я не могу говорить с другими продуктами, но я уверен, что многие из них тоже прекрасны.

Изменить. Здесь разговор от Stonebreaker: http://www.slideshare.net/Dataversity/newsql-vs-nosql-for-new-oltp-michael-stonebraker-voltdb

Ответ 5

Pivotal, ранее Greenplum, является хорошо финансируемым выпуском EMC, VMware и GE. Основным рынком являются предприятия (и агентства национальной кибербезопасности) с базами данных с множеством Петабайт, требующими сложной аналитики и высокоскоростного ETL. Greenplums origin - это PostgreSQL DB, измененный для Map Reduced MPP, с более поздними дополнениями для поддержки столбцов и HDFS. Он женится на лучшем из SQL + NoSQL, делающем NewSQL.

Особенности:

В 2015H1 большая часть их кода, включая Greenplum DB и HAWQ, пойдет Открытый исходный код. Некоторые усовершенствованные функции управления и производительности на верхняя часть стека останется собственностью.
MPP (массовая параллельная обработка) база данных RDBMS без совместного использования, предназначенная для сред с несколькими терабайтами в несколько петабайт.
Полный SQL Compliance - поддержка всех версий SQL: '92, '99, 2003 OLAP и т.д. 100% совместимость с PostgreSQL 8.2. • Только SQL over HADOOP способен обрабатывать все 99 запросов, используемых эталонным стандартом TPC-DS без перезаписи. Конкурс не может сделать многие из них и значительно медленнее. SIGMON.
Соответствие ACID.
Поддерживает данные, хранящиеся в HDFS, Hive, HBase, Avro, ProtoBuf, файлы с разделителями текста и последовательности.
Интеграция Solr/Lucene для многоязычного полнотекстового поиска, встроенного в SQL.
Включает программное обеспечение с открытым исходным кодом: Spring, Cloud Foundry, Redis.io, RabbitMQ, Grails, Groovy, Open Chorus, Pig, ZooKeeper, Mahout, MADlib, MapR. Некоторые из них используются в EBSCO.
Родная связь с HBase, которая является популярной технологией для хранения столбцов в Hadoop.
Участие VMware в инвестициях в размере $150 млн. в MongoDB, скорее всего, приведет к интеграции XML файлов размером в петабайт.
Спецификация таблиц распределения по таблицам по таблицам позволяет вам проектировать схемы таблиц, чтобы использовать node -локальные объединения и групповые байты, но будет выполнять даже без этого.
Сохранение данных на основе строк и/или столбцов. Это единственная база данных, где таблица может быть полиморфной как с столбцами, так и с разбивкой по строкам, как определено DBA.
Таблица столбцов-хранилищ может иметь другой алгоритм сжатия для каждого столбца, потому что разные типы данных имеют разные характеристики сжатия для оптимизации их хранения.
Улучшенный оптимизатор запросов CBO-оптимизаций - запросы могут выполняться на сотнях тысяч узлов.
Это единственная база данных с динамической распределенной моделью выполнения конвейера для обработки запросов. В то время как старые базы данных полагаются на материализованное исполнение, Greenplum не должен записывать данные на диск с каждым промежуточным шагом запроса. Он передает данные на следующий этап плана запроса в память и никогда не должен материализовать данные на диск, поэтому он намного быстрее, чем продемонстрировал кто-то на Hadoop.
Комплексные запросы на больших наборах данных решаются в секундах или даже в подсетеках.
Управление данными - предоставляет статистику таблиц, безопасность таблицы.
Глубокая аналитика - включая алгоритмы интеллектуального анализа данных или машинного обучения с использованием MADlib. Глубокая семантическая текстовая аналитика с использованием GPText.
Графический анализ - миллиардная граница распределенной базы данных графа и алгоритмов с использованием GraphLab.
Интеграция индексов SQL, Solr, GPText, MADlib и GraphLab в одном запросе для массивного синтаксического анализа и анализа сродства к диаграмме/матрице для глубокой поисковой аналитики.
Полностью совместим с ODBC/JDBC.
Распределенная скорость ETL в 16 ТБ/ч! Доступна интеграция с Talend.
Облачная поддержка: Pivotal планирует упаковать свое программное обеспечение Cloud Foundry, чтобы оно могло использоваться для размещения Pivotal поверх других облаков, в том числе EC2 Amazon Web Services. Управление ключевыми данными будет доступно для использования в различных облачных настройках и не будет зависеть от собственной системы VMware. Будет нацелен OpenStack, vSphere, vCloud Director или частные бренды. IBM объявила, что стандартизирована в Cloud Foundry для своего PaaS. Страница Confluence.
Два аппаратных "устройства": Isilon NAS и Greenplum DCA.

Ответ 6

Существует много путаницы в том, когда использовать базу данных строк, такую как MySQL или Oracle, или столбчатую базу данных, такую как Infobright или Vertica или вариант NoSQL или Hadoop. Мы написали белый документ, чтобы помочь разобраться, какие технологии лучше всего подходят для использования в случаях использования - вы можете скачать "Новый ландшафт базы данных" (прокрутите половину пути вниз) или просмотрите вебинар по запросу в той же теме.

Надежда либо полезна для вас