Преобразование Scala Iterable [кортеж] в RDD

У меня есть список кортежей, (String, String, Int, Double), которые я хочу преобразовать в Spark RDD.

В общем, как мне преобразовать Scala Iterable [(a1, a2, a3,..., an)] в Spark RDD?

Ответы

Ответ 1

Есть несколько способов сделать это, но самый простой способ - это просто использовать Spark Context:

import org.apache.spark._
import org.apache.spark.rdd._
import org.apache.spark.SparkContext._

sc.parallelize(YourIterable.toList)

Я думаю, что sc.Parallelize нужно преобразовать в List, но он сохранит вашу структуру, поэтому вы все равно получите RDD [String, String, Int, Double]