Ответ 1
Если вы используете DataFrame, не нужно откатывать файлы метаданных.
Например:
Вы можете написать свой DataFrame на S3
df.write.partitionBy("date").parquet("s3n://bucket/folderPath")
Затем вручную удалить один из ваших разделов (дата = 1 папка на S3) с помощью браузера S3 (например, CloudBerry)
Теперь вы можете
-
Загрузите свои данные и убедитесь, что данные по-прежнему действительны, за исключением данных, которые у вас были в разделе date = 1
sqlContext.read.parquet("s3n://bucket/folderPath").count
-
Или переписать ваш DataFrame (или любой другой DataFrame с той же схемой) с помощью режима добавить
df2.write.mode("append").partitionBy("date").parquet("s3n://bucket/folderPath")
Вы также можете посмотреть этот question из форума databricks.