Как использовать пользовательские классы с Apache Spark (pyspark)?

Я написал класс, реализующий классификатор в python. Я хотел бы использовать Apache Spark для параллелизации классификации огромного количества точек данных, использующих этот классификатор.

Искра не с ошибкой (только соответствующий бит, я думаю):

Может ли кто-нибудь мне помочь? Отчасти отчаянно...

Ответы

Ответ 1

Возможно, самым простым решением является использование аргумента pyFiles при создании SparkContext

from pyspark import SparkContext
sc = SparkContext(master, app_name, pyFiles=['/path/to/BoTree.py'])

Каждый файл, размещенный там, будет отправлен рабочим и добавлен в PYTHONPATH.

Если вы работаете в интерактивном режиме, вы должны остановить существующий контекст, используя sc.stop(), прежде чем создавать новый.

Также убедитесь, что рабочий Spark фактически использует дистрибутив Anaconda, а не интерпретатор Python по умолчанию. Основываясь на вашем описании, это, скорее всего, проблема. Чтобы установить PYSPARK_PYTHON, вы можете использовать conf/spark-env.sh файлы.

На стороне примечание копирование файла на lib является довольно грязным решением. Если вы хотите избежать нажатия файлов с помощью pyFiles, я бы рекомендовал создать простой пакет Python или пакет Conda и правильную установку. Таким образом, вы можете легко отслеживать, что установлено, удалять ненужные пакеты и избегать проблем с отладки.

Ответ 2

После получения SparkContext можно также использовать addPyFile для последующего отправки модуля каждому работнику.

sc.addPyFile('/path/to/BoTree.py')

документа pyspark.SparkContext.addPyFile(путь)