Ответ 1
Согласно api docs, выполните:
dataFrame1.except(dataFrame2)
вернет новый DataFrame, содержащий строки в dataFrame1, но не в dataframe2.
В Spark версии 1.2.0 можно использовать subtract
с 2 SchemRDD
, чтобы в итоге получить только один контент из первого
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData
содержит строки в todaySchemRDD
, которые не существуют в yesterdaySchemaRDD
.
Как это можно достичь с помощью DataFrames
в Spark версии 1.3.0?
Согласно api docs, выполните:
dataFrame1.except(dataFrame2)
вернет новый DataFrame, содержащий строки в dataFrame1, но не в dataframe2.
В pyspark DOCS было бы вычтено
df1.subtract(df2)