Может ли запустить apache без хаоса?
Существуют ли зависимости между Spark и Hadoop?
Если нет, есть ли какие-либо функции, которые я пропущу, когда я запустил Искра без Hadoop?
Ответы
Ответ 1
Spark может работать без Hadoop, но некоторые его функции зависят от кода Hadoop (например, обработка файлов Parquet). Мы запускаем Spark на Mesos и S3, который было немного сложно настроить, но когда-то он работает очень хорошо (вы можете прочитать краткое изложение того, что нужно, чтобы правильно установить его здесь).
(Изменить) Примечание: начиная с версии 2.3.0 Spark также добавила встроенную поддержку Kubernetes
Ответ 2
Spark - это распределенный вычислительный движок в памяти.
Hadoop - это платформа для распределенного хранения (HDFS) и распределенная обработка ( YARN).
Spark может работать с компонентами Hadoop или без них (HDFS/YARN)
Распределенное хранилище:
Так как Spark не имеет собственной распределенной системы хранения, она должна зависеть от одной из этих систем хранения для распределенных вычислений.
S3 - Несрочные пакетные задания. S3 подходит для очень конкретных случаев использования, когда местоположение данных не является критическим.
Cassandra - идеально подходит для потокового анализа данных и избыточного количества для пакетных заданий.
HDFS - отлично подходит для пакетных заданий без ущерба для локальности данных.
Распределенная обработка:
Вы можете запустить Spark в трех разных режимах: Автономный, YARN и Mesos
Взгляните на приведенный ниже вопрос SE для подробного объяснения как распределенной памяти, так и распределенной обработки.
Какой тип кластера следует выбрать для Spark?
Ответ 3
По умолчанию Spark не имеет механизма хранения.
Для хранения данных нужна быстрая и масштабируемая файловая система. Вы можете использовать S3 или HDFS или любую другую файловую систему. Hadoop является экономичным вариантом из-за низкой стоимости.
Кроме того, если вы используете Tachyon, это повысит производительность с Hadoop. Настоятельно рекомендуется Hadoop для обработки Apache Spark. ![enter image description here]()
Ответ 4
Да, искра может работать без хаоса. Все основные функции искры будут продолжать работать, но вы будете пропускать такие вещи, как легко распределять все ваши файлы (код, а также данные) ко всем узлам кластера через hdfs и т.д.
Ответ 5
Да, вы можете установить Spark без Hadoop.
Это было бы немного сложно
Вы можете ссылаться на ссылку arnon, чтобы использовать паркет для настройки на S3 в качестве хранилища данных.
http://arnon.me/2015/08/spark-parquet-s3/
Spark выполняет только обработку и использует динамическую память для выполнения задачи, но для хранения данных вам нужна некоторая система хранения данных. Здесь hasoop входит в состав Spark, он обеспечивает хранилище для Spark.
Еще одна причина использования Hadoop с Spark - это открытый исходный код, и оба могут легко интегрироваться друг с другом по сравнению с другими системами хранения данных. Для другого хранилища, такого как S3, вам должно быть сложно настроить его, как упоминание в приведенной выше ссылке.
Но у Hadoop также есть блок обработки, называемый Mapreduce.
Хотите узнать разницу в обоих?
Проверьте эту статью: https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83
Я думаю, эта статья поможет вам понять
-
что использовать,
-
когда использовать и
-
как использовать!!!
Ответ 6
Согласно документации Spark, Spark может работать без Hadoop.
Вы можете запустить его как автономный режим без какого-либо менеджера ресурсов.
Но если вы хотите запускать в настройке multi- node, вам нужен диспетчер ресурсов, такой как YARN или Mesos, и распределенная файловая система, такая как HDFS, S3 и т.д.
Ответ 7
Да, конечно. Spark - независимая вычислительная структура. Hadoop - это система хранения данных (HDFS) с каркасной платформой MapReduce. Spark может получать данные из HDFS, а также любой другой источник данных, такой как традиционная база данных (JDBC), kafka или даже локальный диск.
Ответ 8
Да, Spark может работать с установкой Hadoop или без нее, более подробную информацию вы можете найти на странице https://spark.apache.org/docs/latest/.
Ответ 9
Нет. Для начала работы требуется полномасштабная установка Hadoop - https://issues.apache.org/jira/browse/SPARK-10944