Как выводить несколько файлов s3 в Паркет

Запись паркетных данных может быть выполнена следующим образом. Но если я пытаюсь написать не только один файл и, более того, хочу вывести на несколько файлов s3, чтобы чтение одного столбца не считывало все данные s3, как это можно сделать?

Например, что, если я хочу разбить на значение столбца, чтобы все данные с красным символом favorite_color попадали в один файл и те, у которых синие в другом файле, чтобы минимизировать стоимость определенных запросов. В контексте Hadoop должно быть что-то подобное. Все, что я могу найти, это вещи, которые упоминают Spark, используя что-то вроде

Но я не могу найти эквивалент partitionBy в простой Java с Hadoop.

Ответы

Ответ 1

В типичном приложении Map-Reduce количество выходных файлов будет таким же, как количество сокращений в вашей работе. Поэтому, если вы хотите несколько выходных файлов, установите количество сокращений соответственно:

job.setNumReduceTasks(N);

или, альтернативно, через системное свойство:

-Dmapreduce.job.reduces=N

Я не думаю, что можно иметь один столбец на файл с форматом Паркета. Внутренняя структура файлов Parquet сначала разделяется группами строк, и только эти группы строк затем разбиваются на столбцы.

Ответ 2

Я сделал это, просто записав вывод непосредственно из моего метода редуктора на S3, используя S3 toolkit. Поскольку я работал на EC2, это было быстро и бесплатно

В общем, вы хотите, чтобы Hadoop обрабатывал ваши входные и выходные данные как можно больше, для более чистых карт и редукторов; и, конечно же, вы хотите написать на S3 в самом конце вашего конвейера, чтобы позволить перемещению кода Hadoop выполнять эту работу поверх HDFS

В любом случае, я рекомендую делать все ваши разделы данных и записывать целые выходные наборы в S3 в конечной задаче сокращения, по одному для каждого файла S3. Это делает как можно меньше логики для записи в вашем коде. Это окупилось для меня, потому что у меня был минимальный набор инструментов Hadoop S3, который я использовал для нескольких потоков задач.