Ответ 1
Это файлы, созданные базовым API Hadoop, который вызывает Spark при вызове saveAsTextFile()
.
-
part-
files: Это ваши файлы выходных данных.У вас будет один файл
part-
для каждого раздела в RDD, на который вы вызвалиsaveAsTextFile()
. Каждый из этих файлов будет выписан параллельно, до определенного предела (как правило, количество ядер для рабочих в вашем кластере). Это означает, что вы будете писать свой результат намного быстрее, чтобы он был выписан, если бы все они были помещены в один файл, предполагая, что ваш уровень хранения может обрабатывать пропускную способность.Вы можете проверить количество разделов в вашем RDD, которое должно рассказать вам, сколько ожидаемых файлов
part-
выглядит следующим образом:# PySpark # Get the number of partitions of my_rdd. my_rdd._jrdd.splits().size()
-
_SUCCESS
file: наличие пустого файла_SUCCESS
просто означает, что операция выполнена нормально. -
.crc
files: Я раньше не видел файлы.crc
, но да, предположительно, они проверяют файлыpart-
.