Ответ 1
По умолчанию раздел создается для каждого раздела HDFS, который по умолчанию составляет 64 МБ (из Руководство по программированию искры).
Можно передать еще один параметр defaultMinPartitions
, который переопределяет минимальное количество создаваемых искривлений. Если вы не переопределите это значение, тогда искра создаст как минимум столько разделов, сколько spark.default.parallelism
.
Так как spark.default.parallelism
должно быть числом ядер на всех компьютерах вашего кластера, я считаю, что в вашем случае будет создано как минимум 3 раздела.
Вы также можете repartition
или coalesce
RDD изменить количество разделов, что, в свою очередь, влияет на общее количество доступных parallelism.