Ответ 1
Метод, который вы ищете, . limit.
Возвращает новый DataFrame, беря первые n строк. Разница между этой функцией и головой заключается в том, что head возвращает массив, а limit возвращает новый DataFrame.
Я использую функцию randomSplit
для получения небольшого количества данных для использования в dev-целях, и в итоге я получаю только первый df, возвращаемый этой функцией.
val df_subset = data.randomSplit(Array(0.00000001, 0.01), seed = 12345)(0)
Если я использую df.take(1000)
, тогда я получаю массив строк, а не фреймворк данных, поэтому для меня это не сработает.
Есть ли лучший, более простой способ взять первые 1000 строк df и сохранить его как другой df?
Метод, который вы ищете, . limit.
Возвращает новый DataFrame, беря первые n строк. Разница между этой функцией и головой заключается в том, что head возвращает массив, а limit возвращает новый DataFrame.