Как исключить несколько столбцов в Spark dataframe в Python

Я обнаружил, что в PySpark есть метод drop но кажется, что он может удалять только один столбец за раз. Любые идеи о том, как отбросить несколько столбцов одновременно?

Ответы

Ответ 1

Просто с select:

df.select([c for c in df.columns if c not in {'GpuName','GPU1_TwoPartHwID'}])

или если вы действительно хотите использовать drop, тогда reduce должен выполнить трюк:

from functools import reduce
from pyspark.sql import DataFrame

reduce(DataFrame.drop, ['GpuName','GPU1_TwoPartHwID'], df)

Примечание

(разница во времени выполнения):

Не должно быть разницы, когда дело касается времени обработки данных. Хотя эти методы генерируют разные логические планы, физические планы в точности совпадают.

Однако при анализе кода на стороне водителя существует разница:

первый метод делает только один вызов JVM, а второй - для вызова JVM для каждого столбца, который должен быть исключен.
первый метод генерирует логический план, который эквивалентен физическому плану. Во втором случае оно переписывается.
Наконец, в Python понимание значительно быстрее, чем методы типа map или reduce
Spark 2.x + поддерживает несколько столбцов в drop. См. SPARK-11884 (удалите несколько столбцов в API DataFrame) и SPARK-12204 (примените метод drop для DataFrame в SparkR) для detials.

Ответ 2

В методе PySpark 2.1.0 drop поддерживает несколько столбцов:

PySpark 2.0.2:

DataFrame.drop(col)

PySpark 2.1.0:

DataFrame.drop(*cols)

Пример:

df.drop('col1', 'col2')

Ответ 3

Правильный способ сделать это:

df.drop(* ['col1', 'col2', 'col3'])

Символ * должен выходить за скобки, если нужно удалить несколько столбцов.