Понимание замыканий и их сериализации

Отказ от ответственности: просто начинайте играть с Spark.

У меня проблемы с пониманием знаменитого исключения "Задача не сериализуемая", но мой вопрос немного отличается от тех, которые я вижу на SO (или, как я думаю).

У меня крошечный пользовательский RDD (TestRDD). Он имеет поле, в котором хранятся объекты, класс которых не реализует Serializable (NonSerializable). Я установил опцию конфигурации spark.serializer для использования Kryo. Однако, когда я пытаюсь count() на моем RDD, я получаю следующее:

Когда я заглядываю внутрь DAGScheduler.submitMissingTasks, я вижу, что он использует свой сериализатор замыкания на моем RDD, который является сериализатором Java, а не сериализатором Kryo, которого я ожидал бы. Я читал, что Kryo имеет проблемы с сериализации замыканий, и Spark всегда использует сериализатор Java для замыканий, но я не совсем понимаю, как замыкания вступают в игру здесь вообще. Все, что я здесь делаю, это:

То есть, никакие карты или что-либо, что потребует сериализации замыканий. OTOH это работает:

Серийный анализатор Kryo используется, как и ожидалось, сериализатор замыкания не задействован. Если я не установил свойство serializer в Kryo, я тоже получил бы исключение.

Я ценю любые указатели, объясняющие, откуда происходит замыкание, и как обеспечить, чтобы я мог использовать Kryo для сериализации пользовательских RDD.

UPDATE: здесь TestRDD с его несериализуемым полем mNS:

Ответы

Ответ 1

Когда я смотрю внутрь DAGScheduler.submitMissingTasks, я вижу, что он использует его сериализатор замыкания на моем RDD, который является сериализатором Java, а не сериализатор Kryo, который я ожидаю.

SparkEnv поддерживает два сериализатора, один из которых называется serializer, который используется для сериализации ваших данных, контрольной точки, обмена сообщениями между рабочими и т.д. и доступен под флагом конфигурации spark.serializer. Другой называется closureSerializer под spark.closure.serializer, который используется для проверки того, что ваш объект фактически сериализуем и настраивается для Spark & lt; = 1.6.2 (но фактически ничего не работает JavaSerializer) и жестко запрограммировано из 2.0. 0 и выше до JavaSerializer.

У сериализатора закрытия Kryo есть ошибка, которая делает ее непригодной, вы можете увидеть эту ошибку под SPARK-7708 (это может быть исправлено с помощью Kryo 3.0.0, но Spark в настоящее время фиксируется с определенной версией Chill, которая исправлена на Kryo 2.2.1). Кроме того, для Spark 2.0.x теперь JavaSerializer теперь фиксируется вместо настраиваемого (вы можете увидеть его в этом запросе на растяжение). Это означает, что мы эффективно зацикливаемся на JavaSerializer для сериализации закрытия.

Является ли это странным, что мы используем один сериализатор для отправки задач и прочее для сериализации данных между рабочими и т.д.? определенно, но это то, что у нас есть.

Подводя итог, если вы настраиваете конфигурацию spark.serializer или используете SparkContext.registerKryoClasses, вы будете использовать Kryo для большей части вашей сериализации в Spark. Сказав, что для проверки того, является ли данный класс сериализуемым и сериализованным заданием для рабочих, Spark будет использовать JavaSerializer.