Переименование файлов частей на карте Hadoop Уменьшить

Вывод редуктора будет переименован в text-r-00000

Но проблема здесь в том, что я также получаю пустой файл part-r-00000. Является ли это, как ожидается, будет работать MultipleOutputs, или есть некоторые проблемы с моим кодом? Пожалуйста, совет.

Еще одна альтернатива, которую я опробовал, - это перебрать мою выходную папку с помощью класса FileSystem и вручную переименовать все файлы, начиная с части.

Ответы

Ответ 1

Даже если вы используете MultipleOutputs, по умолчанию используется OutputFormat (я считаю, что это TextOutputFormat), и поэтому он будет инициализировать и создать эти файлы part-r-xxxxx, которые вы видите.

Тот факт, что они пустые, состоит в том, что вы не выполняете никаких context.write, потому что используете MultipleOutputs. Но это не мешает им создаваться во время инициализации.

Чтобы избавиться от них, вам нужно определить свой OutputFormat, чтобы сказать, что вы не ожидаете выхода. Вы можете сделать это следующим образом:

job.setOutputFormat(NullOutputFormat.class);

С этим набором свойств это должно гарантировать, что ваши файлы деталей никогда не будут инициализированы вообще, но вы все равно получите свой вывод в MultipleOutputs.

Возможно, вы также можете использовать LazyOutputFormat, который гарантирует, что ваши выходные файлы создаются только в том случае, если/имеются некоторые данные, а не инициализировать пустые файлы. Вы можете сделать это следующим образом:

import org.apache.hadoop.mapreduce.lib.output.LazyOutputFormat; 
LazyOutputFormat.setOutputFormatClass(job, TextOutputFormat.class);

Обратите внимание, что вы используете в своем Reducer прототипе MultipleOutputs.write(String namedOutput, K key, V value), который просто использует выходной путь по умолчанию, который будет сгенерирован на основе вашего namedOutput примерно так: {namedOutput}-(m|r)-{part-number}. Если вы хотите иметь больший контроль над вашими выходными именами файлов, вы должны использовать прототип MultipleOutputs.write(String namedOutput, K key, V value, String baseOutputPath), который может позволить вам получить имена файлов, сгенерированные во время выполнения, на основе ваших ключей/значений.

Ответ 2

Это все, что вам нужно сделать в классе Driver, чтобы изменить базовое имя выходного файла: job.getConfiguration().set("mapreduce.output.basename", "text"); Таким образом, это приведет к тому, что ваши файлы будут называться "text-r-00000".