Отправляя задания на Spark EC2-кластер удаленно

Я установил кластер EC2 с помощью Spark. Все работает, все ведущие/ведомые работают и работают.

Я пытаюсь отправить образец задания (SparkPi). Когда я ssh кластер и отправлю его оттуда - все работает нормально. Однако, когда драйвер создается на удаленном хосте (мой ноутбук), он не работает. Я пробовал оба режима для --deploy-mode:

Результаты следующих неопределенных предупреждений/ошибок:

... и неудачные драйверы - в интерфейсе Spark Web "Завершены драйверы" с "State = ERROR".

Я попытался передать ограничения для ядер и памяти, чтобы отправить script, но это не помогло...

Итак, я был бы признателен за любые указатели на то, что происходит не так, и на некоторые рекомендации по развертыванию заданий с удаленного клиента. Спасибо.

UPDATE: Поэтому для второй проблемы в режиме кластера файл должен быть глобально видимым для каждого кластера node, поэтому он должен находиться где-то в доступном месте. Это решение IOException, но приводит к той же проблеме, что и в клиентском режиме.

Ответы

Ответ 1

Документация по адресу:

http://spark.apache.org/docs/latest/security.html#configuring-ports-for-network-security

перечислены все различные каналы связи, используемые в Spark-кластере. Как вы можете видеть, есть куча, где соединение выполняется от Исполнителя (-ов) к Драйверу. Когда вы запускаете с --deploy-mode=client, драйвер запускается на вашем ноутбуке, поэтому исполнители попытаются подключиться к вашему ноутбуку. Если группа безопасности AWS, которую ваши исполнители запускают под блоком исходящего трафика на ваш ноутбук (который нет в группе безопасности по умолчанию, созданной сценариями Spark EC2), или вы находитесь за маршрутизатором/брандмауэром (скорее всего), они не могут подключиться и вы получаете ошибки, которые видите.

Чтобы решить эту проблему, вам необходимо переслать все необходимые порты на ваш ноутбук или перенастроить брандмауэр, чтобы разрешить подключение к портам. Видя, что куча портов выбрана произвольно, это означает, что вы можете открыть широкий диапазон, если не всех портов. Вероятно, использование --deploy-mode=cluster или client из кластера менее болезненно.

Ответ 2

Я рекомендую удаленно отправлять искровые задания с помощью стратегии открытия порта, потому что это может создать проблемы безопасности и, по моему опыту, больше проблем, чем это стоит, особенно из-за устранения неполадок уровня связи.

Альтернатива:

1) Livy - теперь проект Apache! http://livy.io или http://livy.incubator.apache.org/

2) Сервер Spark Job - https://github.com/spark-jobserver/spark-jobserver