Ответ 1
Вот документация для добавления node в Hadoop и для HBase, Если посмотреть на документацию, нет необходимости перезапуска кластера. A node можно добавить динамически.
Я играл с Cloudera, и я определяю количество кластеров, прежде чем начать свою работу, а затем используйте менеджер cloudera, чтобы убедиться, что все работает.
Im работает над новым проектом, который вместо использования hadoop использует очереди сообщений для распространения работы, но результаты работы хранятся в HBase. Я могу запустить 10 серверов для обработки задания и сохранить его в Hbase, но я задаюсь вопросом, могу ли я позже добавить несколько рабочих узлов, могу ли я легко читать (читать: программировать), чтобы они автоматически подключались к работающему кластеру, чтобы они могли локально добавлять кластеры HBase/HDFS?
Возможно ли это и что мне нужно узнать, чтобы это сделать?
Вот документация для добавления node в Hadoop и для HBase, Если посмотреть на документацию, нет необходимости перезапуска кластера. A node можно добавить динамически.
Следующие шаги помогут вам запустить новый node в текущем кластере.
1> Update the /etc/hadoop/conf/slaves list with the new node-name
2> Sync the full configuration /etc/hadoop/conf to the new datanode from the Namenode. If the file system isn't shared.
2> Restart all the hadoop services on Namenode/Tasktracker and all the services on the new Datanode.
3> Verify the new datanode from the browser http://namenode:50070
4> Run the balancer script to readjust the data between the nodes.
Если вы не хотите перезапускать службы в NN, когда вы добавляете новый node. Я бы сказал, добавьте имена вперед в конфигурационный файл slaves. Таким образом, они сообщают о выводе из эксплуатации/мертвых узлах, пока они не будут доступны. Следуя приведенным выше инструкциям DataNode. Опять же, это не лучшая практика.
Если я правильно вас понимаю, у вас есть работники, которые вы сами координируете, которые подключаются к HBase для сохранения своих данных. вы можете иметь столько, сколько вам нужно, и они могут подключаться к Hbase по мере добавления (пока они могут видеть кворум zookeeper).
Если вы говорите об увеличении кластера Hadoop. Поскольку вы уже используете Cloudera, вы можете сделать это с помощью cloudera Manager REST API или Java-клиент, который был реализован для него
Это можно сделать без перезапуска кластера hadoop. В соответствии с этим document вы можете добавлять узлы в файл include и вносить некоторые изменения в hdfs-site.xml и mapred-site.xml файлов, вы можете добиться этого. Подробные инструкции приведены в этом документе