Ответ 1
Давайте начнем с основ
- Паркет, если файлФормат, но должен быть сохранен в файловой системе.
- Поддерживается ли поддержка Parquet.?
- Разрешает ли FileSystem (HDFS) добавлять в файл.
- Даже если все верно, среда работы (Spark) может обрабатывать append
Ответы:
-
Паркет: паркет .hadoop.ParquetFileWriter поддерживает только CREATE и OVERWRITE, но не поддерживает режим добавления. (Не уверен, но это может измениться в другой реализации, дизайн паркета поддерживает добавления)
-
HDFS hdfs позволяет добавлять файлы, используя (свойство dfs.support.append)
-
База Spark не поддерживает добавление существующих паркетных файлов.
Пройдите
http://bytepadding.com/big-data/spark/read-write-parquet-files-using-spark/
http://bytepadding.com/linux/understanding-basics-of-filesystem/
для детального понимания.