Установка Hbase/Hadoop на кластер EC2

Я знаю, что я могу выделить кластер EC2 с установленным Hadoop (если я не ошибаюсь в этом). Как насчет Hbase? Могу ли я иметь готовый к использованию вариант Hadoop и Hbase? Или мне нужно, чтобы мои руки были грязными. Если это не вариант, каков наилучший вариант? Очевидно, у Клаудера есть пакет с обоими. Это путь?

Ответы

Ответ 1

hbase имеет набор сценариев ec2, которые позволяют настроить и готовы к работе очень быстро. Он позволяет вам настроить количество серверов zk, а также подчиненных узлов, но я не уверен, в каких версиях они доступны. Я использую 0.20.6. После настройки некоторых из ваших данных S3/EC2 вы можете делать такие вещи, как:

/usr/local/hbase-0.20.6/contrib/ec2/bin/launch-hbase-cluster CLUSTERNAME SLAVES ZKSERVERS

чтобы быстро начать использовать кластер. Это хорошо, потому что оно также установит для вас информацию LZO.

Вот некоторые параметры из файла среды в каталоге bin, которые могут быть полезны (если вы хотите 20.6 AMI):

# The version of HBase to use.
HBASE_VERSION=0.20.6

# The version of Hadoop to use.
HADOOP_VERSION=0.20.2

# The Amazon S3 bucket where the HBase AMI is stored.
# Change this value only if you are creating your own (private) AMI
# so you can store it in a bucket you own.
#S3_BUCKET=apache-hbase-images
S3_BUCKET=720040977164

# Enable public access web interfaces
ENABLE_WEB_PORTS=false

# Extra packages
# Allows you to add a private Yum repo and pull packages from it as your
# instances boot up. Format is <repo-descriptor-URL> <pkg1> ... <pkgN>
# The repository descriptor will be fetched into /etc/yum/repos.d.
EXTRA_PACKAGES=

# Use only c1.xlarge unless you know what you are doing
MASTER_INSTANCE_TYPE=${MASTER_INSTANCE_TYPE:-c1.xlarge}

# Use only c1.xlarge unless you know what you are doing
SLAVE_INSTANCE_TYPE=${SLAVE_INSTANCE_TYPE:-c1.xlarge}

# Use only c1.medium unless you know what you are doing
ZOO_INSTANCE_TYPE=${ZOO_INSTANCE_TYPE:-c1.medium}

Вам также может потребоваться установить версию java, если JAVA_HOME не установлен в ami (и я не думаю, что это так). Более новые версии hbase, вероятно, доступны в кодах S3, просто выполните примеры экземпляров и grep для hadoop/hbase, чтобы сузить результаты.

Ответ 2

Из того, что я слышал, самый простой и быстрый способ заставить hbase работать на EC2, использует apache whirr.

Ответ 3

Знаете ли вы об Amazon Elastic MapReduce? Он не предлагает Hbase, но он предлагает простые "ol Hadoop", "Hive and Pig" (в довольно недавних версиях). Большая победа в том, что они не начинают заряжать вас до тех пор, пока 90% ваших узлов не будут подняты, а недостаток - это небольшая премия в час по сравнению с обычным EC2.

Если вам действительно нужно/нужно использовать HBase, вам может быть лучше открутить что-то от себя. См. Следующее сообщение блога Cloudera для обсуждения интеграции Hive и Hbase: http://www.cloudera.com/blog/2010/06/integrating-hive-and-hbase/