Ответ 1
sc._jsc.hadoopConfiguration().set('my.mapreduce.setting', 'someVal')
должен работать
Версия SparkContext Scala имеет свойство
sc.hadoopConfiguration
Я успешно использовал это, чтобы установить свойства hadoop (в scala..)
например.
sc.hadoopConfiguration.set("my.mapreduce.setting","someVal")
Однако в версии Python SparkContext отсутствует этот аксессор. Есть ли способ установить значения конфигурации hadoop в конфигурацию Hadoop, используемую контекстом pyspark?
sc._jsc.hadoopConfiguration().set('my.mapreduce.setting', 'someVal')
должен работать
Я просмотрел исходный код pyspark (context.py), и нет прямого эквивалента. Вместо этого некоторые конкретные методы поддерживают отправку на карте пар (ключ, значение):
fileLines = sc.newAPIHadoopFile('dev/*',
'org.apache.hadoop.mapreduce.lib.input.TextInputFormat',
'org.apache.hadoop.io.LongWritable',
'org.apache.hadoop.io.Text',
conf={'mapreduce.input.fileinputformat.input.dir.recursive':'true'}
).count()
При отправке задания вы можете установить любые свойства hadoop с помощью параметра --conf.
--conf "spark.hadoop.fs.mapr.trace=debug"