Spark - создание вложенных DataFrame

Я начинаю с PySpark, и у меня возникают проблемы с созданием DataFrames с вложенными объектами.

И мне нравится присоединяться к нему, чтобы получить такую структуру, где заказы массива вложены в пользователей.

Как я могу это сделать? Есть ли какое-либо вложенное соединение или что-то подобное?

EDIT: Я знаю, что есть возможность сделать это, используя join и foldByKey, но есть ли более простой способ?

Я добавляю строки второй вложенной структуры

После этого названия столбцов из строк будут потеряны. Любые идеи?

ИЗМЕНИТЬ 3: Я попытался вручную указать схему.

Ответы

Ответ 1

Это будет работать только в Spark 2.0 или более поздней версии

Сначала нам понадобится пара импорта:

from pyspark.sql.functions import struct, collect_list

Остальное - это простая агрегация и объединение:

orders = spark.read.json("/path/to/order.json")
users = spark.read.json("/path/to/user.json")

combined = users.join(
    orders
        .groupBy("userId")
        .agg(collect_list(struct(*orders.columns)).alias("orders"))
        .withColumnRenamed("userId", "id"), ["id"])

Для данных примера результат:

combined.show(2, False)

+---+-----+---------------------------+
|id |name |orders                     |
+---+-----+---------------------------+
|1  |UserA|[[1,202.3,1], [2,343.99,1]]|
|2  |UserB|[[3,399.99,2]]             |
+---+-----+---------------------------+

со схемой:

combined.printSchema()

root
 |-- id: long (nullable = true)
 |-- name: string (nullable = true)
 |-- orders: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- id: long (nullable = true)
 |    |    |-- price: double (nullable = true)
 |    |    |-- userid: long (nullable = true)

и представление JSON:

for x in combined.toJSON().collect():
    print(x)

{"id":1,"name":"UserA","orders":[{"id":1,"price":202.3,"userid":1},{"id":2,"price":343.99,"userid":1}]}
{"id":2,"name":"UserB","orders":[{"id":3,"price":399.99,"userid":2}]}

Ответ 2

Для выравнивания вашего фрейма данных от вложенного до обычного использования

dff= df.select("column with multiple columns.*").toPandas()

Ответ 3

Сначала вам нужно использовать userid в качестве ключа соединения для второго DataFrame:

user.join(order, user.id == order.userid)

Затем вы можете использовать шаг map, чтобы преобразовать результирующие записи в нужный формат.