Преимущества файла Sequence поверх текстового файла hdfs

В чем преимущество файла последовательности Hadoop по файлу HDFS (текст)? Каким образом файл последовательности является эффективным?

Маленькие файлы могут быть объединены и записаны в файл последовательности, но то же самое можно сделать и для текстового файла HDFS. Необходимо знать разницу между двумя способами. Я давно искал эту проблему, было бы полезно, если бы я получил ясность в этом вопросе?

Ответы

Ответ 1

Файлы последовательности подходят для ситуаций, в которых вы хотите сохранить ключи и их соответствующие значения. Для текстовых файлов вы можете это сделать, но вам нужно проанализировать каждую строку.
Может быть сжат и по-прежнему будет разделяться, что означает лучшую рабочую нагрузку. Вы не можете разделить сжатый текстовый файл, если не используете разделительный формат сжатия.
Может использоваться как двоичный файл = > более эффективное хранилище. В текстовом файле двойным будет количество символов = большие расходы на хранение.

Ответ 2

Преимущества Hadoop Файлы последовательности (согласно Siva статье с сайта hadooptutorial.info)

Больше compact, чем текстовые файлы
Обеспечивает поддержку сжатия на разных уровнях - Block или Record и т.д.
Файлы можно разделить и обрабатывать параллельно
Они могут решить большое количество проблем с небольшими файлами в Hadoop, где основным преимуществом Hadoop является обработка большого файла с заданиями Map уменьшить. Он может использоваться как контейнер для большого количества небольших файлов.
Временный вывод Mapper может быть сохранен в последовательных файлах

Недостатки:

Последовательные файлы добавляются только

Ответ 3

Файлы последовательности - это промежуточные файлы, созданные во время этапа Mapper и редуктора обработки MapReduce. Последовательный файл сжимается и быстро обрабатывается, он используется для записи вывода во время преобразования и красного красного цвета из него. В Hadoop и Spark есть API-интерфейсы для чтения/записи файлов последовательности