Каков правильный способ сохранения\загрузки моделей в Spark\PySpark

Я работаю с Spark 1.3.0 с помощью PySpark и MLlib, и мне нужно сохранять и загружать мои модели. Я использую такой код (взято из официальной документации)

После того, как я попытаюсь использовать model0, я получаю длинную трассировку, которая заканчивается следующим:

Итак, мой вопрос: я что-то делаю неправильно? Насколько я отлаживал свои модели, хранятся (локально и на HDFS), и они содержат много файлов с некоторыми данными. У меня такое чувство, что модели сохранены правильно, но, вероятно, они загружены неправильно. Я также googled вокруг, но не нашел ничего связанного.

Похоже, эта функция save\load была добавлена недавно в Spark 1.3.0, и из-за этого у меня есть еще один вопрос - каков был рекомендованный способ сохранить\загружать модели до версии 1.3.0? Я не нашел хороших способов сделать это, по крайней мере для Python. Я также попытался Pickle, но столкнулся с теми же проблемами, что описаны здесь Сохранить Apache Spark mllib model в python

Ответы

Ответ 1

Один способ сохранить модель (в Scala, но, вероятно, похож на Python):

// persist model to HDFS
sc.parallelize(Seq(model), 1).saveAsObjectFile("linReg.model")

Сохраненная модель затем может быть загружена как:

val linRegModel = sc.objectFile[LinearRegressionModel]("linReg.model").first()

См. также question

Подробнее см. (ref)

Ответ 2

По состоянию этот запрос на перенос объединился 28 марта 2015 года (на следующий день после последнего изменения вашего вопроса) эта проблема была решена.

Вам просто нужно клонировать/извлекать последнюю версию из GitHub (git clone git://github.com/apache/spark.git -b branch-1.3), а затем строить ее (следуя инструкциям в spark/README.md) с помощью $ mvn -DskipTests clean package.

Примечание. Я столкнулся с проблемой создания Искры, потому что Мейвен был неуклюжим. Я решил эту проблему, используя $ update-alternatives --config mvn и выбрав "путь", который имел приоритет: 150, что бы это ни значило. Объяснение здесь.

Ответ 3

Я тоже сталкиваюсь с этим - это похоже на ошибку. Я сообщил spark jira.

Ответ 4

Используйте конвейер в ML для обучения модели, а затем используйте MLWriter и MLReader, чтобы сохранить модели и прочитать их.

from pyspark.ml import Pipeline
from pyspark.ml import PipelineModel

pipeTrain.write().overwrite().save(outpath)
model_in = PipelineModel.load(outpath)