Spark: вычесть два DataFrames

В Spark версии 1.2.0 можно использовать subtract с 2 SchemRDD, чтобы в итоге получить только один контент из первого

val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)

onlyNewData содержит строки в todaySchemRDD, которые не существуют в yesterdaySchemaRDD.

Как это можно достичь с помощью DataFrames в Spark версии 1.3.0?

Ответы

Согласно api docs, выполните:

dataFrame1.except(dataFrame2)

вернет новый DataFrame, содержащий строки в dataFrame1, но не в dataframe2.

В pyspark DOCS было бы вычтено

df1.subtract(df2)