Как создать собственный кодировщик в наборах Spark 2.X?

Набор данных Spark отходит от строки до Encoder для примитивов Pojo. Механизм Catalyst использует ExpressionEncoder для преобразования столбцов в выражение SQL. Однако не существуют другие подклассы Encoder, доступные для использования в качестве шаблона для наших собственных реализаций.

Вот пример кода, который счастлив в Spark 1.X/DataFrames, который не компилируется в новом режиме:

Я ищу код, который успешно выполняет эти шаги.

Ответы

Ответ 1

Насколько мне известно, ничего не изменилось с тех пор, как версии 1.6 и решения, описанные в Как сохранить пользовательские объекты в Dataset?, являются единственными доступными параметрами. Тем не менее, ваш текущий код должен отлично работать с кодами по умолчанию для типов продуктов.

Чтобы понять, почему ваш код работал в 1.x и может не работать в 2.0.0, вам нужно будет проверить подписи. В 1.x DataFrame.map - метод, который принимает функцию Row => T и преобразует RDD[Row] в RDD[T].

В 2.0.0 DataFrame.map также используется функция типа Row => T, но преобразуется Dataset[Row] (a.k.a DataFrame) в Dataset[T], поэтому T требует Encoder. Если вы хотите получить "старое" поведение, вы должны явно использовать RDD:

df.rdd.map(row => ???)

Ответ 2

Вы импортировали неявные кодеры?

import spark.implicits._

http://spark.apache.org/docs/2.0.0-preview/api/scala/index.html#org.apache.spark.sql.Encoder