Просмотр содержимого столбца данных Spark Dataframe
Я использую Spark 1.3.1.
Я пытаюсь просмотреть значения столбца данных Spark dataframe в Python. С помощью фреймворка Spark я могу сделать df.collect()
для просмотра содержимого фрейма данных, но такого метода для столбца DataFrame Spark нет, как я могу видеть.
Например, в dataframe df
содержится столбец с именем 'zip_code'
. Поэтому я могу сделать df['zip_code']
, и он превращает тип pyspark.sql.dataframe.Column
, но я не могу найти способ просмотра значений в df['zip_code']
.
Ответы
Ответ 1
Вы можете получить доступ к базовому RDD
и отобразить его
df.rdd.map(lambda r: r.zip_code).collect()
Вы также можете использовать select
, если вы не против результатов, завершенных с помощью объектов Row
:
df.select('zip_code').collect()
Наконец, если вы просто хотите проверить контент, тогда show
должен быть достаточно:
df.select('zip_code').show()
Ответ 2
Чтобы просмотреть полный контент:
df.select("raw").take(1).foreach(println)
(show
покажет вам обзор).