Есть ли способ добавить узлы к запущенному кластеру Hadoop?

Я играл с Cloudera, и я определяю количество кластеров, прежде чем начать свою работу, а затем используйте менеджер cloudera, чтобы убедиться, что все работает.

Im работает над новым проектом, который вместо использования hadoop использует очереди сообщений для распространения работы, но результаты работы хранятся в HBase. Я могу запустить 10 серверов для обработки задания и сохранить его в Hbase, но я задаюсь вопросом, могу ли я позже добавить несколько рабочих узлов, могу ли я легко читать (читать: программировать), чтобы они автоматически подключались к работающему кластеру, чтобы они могли локально добавлять кластеры HBase/HDFS?

Возможно ли это и что мне нужно узнать, чтобы это сделать?

Ответы

Ответ 1

Вот документация для добавления node в Hadoop и для HBase, Если посмотреть на документацию, нет необходимости перезапуска кластера. A node можно добавить динамически.

Ответ 2

Следующие шаги помогут вам запустить новый node в текущем кластере.

1> Update the /etc/hadoop/conf/slaves list with the new node-name
2> Sync the full configuration /etc/hadoop/conf to the new datanode from the Namenode. If the file system isn't shared.  
2>  Restart all the hadoop services on Namenode/Tasktracker and all the services on the new Datanode. 
3>  Verify the new datanode from the browser http://namenode:50070
4>  Run the balancer script to readjust the data between the nodes.

Если вы не хотите перезапускать службы в NN, когда вы добавляете новый node. Я бы сказал, добавьте имена вперед в конфигурационный файл slaves. Таким образом, они сообщают о выводе из эксплуатации/мертвых узлах, пока они не будут доступны. Следуя приведенным выше инструкциям DataNode. Опять же, это не лучшая практика.

Ответ 3

Если я правильно вас понимаю, у вас есть работники, которые вы сами координируете, которые подключаются к HBase для сохранения своих данных. вы можете иметь столько, сколько вам нужно, и они могут подключаться к Hbase по мере добавления (пока они могут видеть кворум zookeeper).

Если вы говорите об увеличении кластера Hadoop. Поскольку вы уже используете Cloudera, вы можете сделать это с помощью cloudera Manager REST API или Java-клиент, который был реализован для него

Ответ 4

Это можно сделать без перезапуска кластера hadoop. В соответствии с этим document вы можете добавлять узлы в файл include и вносить некоторые изменения в hdfs-site.xml и mapred-site.xml файлов, вы можете добиться этого. Подробные инструкции приведены в этом документе