Просмотр содержимого столбца данных Spark Dataframe

Я использую Spark 1.3.1.

Я пытаюсь просмотреть значения столбца данных Spark dataframe в Python. С помощью фреймворка Spark я могу сделать df.collect() для просмотра содержимого фрейма данных, но такого метода для столбца DataFrame Spark нет, как я могу видеть.

Например, в dataframe df содержится столбец с именем 'zip_code'. Поэтому я могу сделать df['zip_code'], и он превращает тип pyspark.sql.dataframe.Column, но я не могу найти способ просмотра значений в df['zip_code'].

Ответы

Ответ 1

Вы можете получить доступ к базовому RDD и отобразить его

df.rdd.map(lambda r: r.zip_code).collect()

Вы также можете использовать select, если вы не против результатов, завершенных с помощью объектов Row:

df.select('zip_code').collect()

Наконец, если вы просто хотите проверить контент, тогда show должен быть достаточно:

df.select('zip_code').show()

Ответ 2

Чтобы просмотреть полный контент:

df.select("raw").take(1).foreach(println)

(show покажет вам обзор).