Преимущества файла Sequence поверх текстового файла hdfs
В чем преимущество файла последовательности Hadoop по файлу HDFS (текст)? Каким образом файл последовательности является эффективным?
Маленькие файлы могут быть объединены и записаны в файл последовательности, но то же самое можно сделать и для текстового файла HDFS. Необходимо знать разницу между двумя способами. Я давно искал эту проблему, было бы полезно, если бы я получил ясность в этом вопросе?
Ответы
Ответ 1
- Файлы последовательности подходят для ситуаций, в которых вы хотите сохранить ключи и их соответствующие значения. Для текстовых файлов вы можете это сделать, но вам нужно проанализировать каждую строку.
- Может быть сжат и по-прежнему будет разделяться, что означает лучшую рабочую нагрузку. Вы не можете разделить сжатый текстовый файл, если не используете разделительный формат сжатия.
- Может использоваться как двоичный файл = > более эффективное хранилище. В текстовом файле двойным будет количество символов = большие расходы на хранение.
Ответ 2
Преимущества Hadoop Файлы последовательности (согласно Siva
статье с сайта hadooptutorial.info
)
- Больше compact, чем текстовые файлы
- Обеспечивает поддержку сжатия на разных уровнях - Block или Record и т.д.
- Файлы можно разделить и обрабатывать параллельно
- Они могут решить большое количество проблем с небольшими файлами в Hadoop, где основным преимуществом Hadoop является обработка большого файла с заданиями Map уменьшить. Он может использоваться как контейнер для большого количества небольших файлов.
- Временный вывод Mapper может быть сохранен в последовательных файлах
Недостатки:
- Последовательные файлы добавляются только
Ответ 3
Файлы последовательности - это промежуточные файлы, созданные во время этапа Mapper и редуктора обработки MapReduce. Последовательный файл сжимается и быстро обрабатывается, он используется для записи вывода во время преобразования и красного красного цвета из него.
В Hadoop и Spark есть API-интерфейсы для чтения/записи файлов последовательности