Применять StringIndexer к нескольким столбцам в фреймворке PySpark

который я хочу преобразовать для использования с pyspark.ml. Я могу использовать StringIndexer для преобразования столбца имен в числовую категорию:

Как преобразовать несколько столбцов в StringIndexer (например, name и food, каждый со своим StringIndexer), а затем использовать VectorAssembler для создать вектор функций? Или мне нужно создать StringIndexer для каждого столбца?

** РЕДАКТИРОВАТЬ **: Это не обман, потому что мне нужно это программно для нескольких фреймов данных с разными именами столбцов. Я не могу использовать VectorIndexer или VectorAssembler, потому что столбцы не являются числовыми.

где я создаю список теперь с тремя фреймами данных, каждый из которых идентичен оригиналу плюс преобразованный столбец. Теперь мне нужно присоединиться, чтобы сформировать окончательный фрейм данных, но это очень неэффективно.

Ответы

Ответ 1

Лучшим способом, который я нашел для этого, является объединение нескольких StringIndex в список и использование Pipeline для их выполнения:

from pyspark.ml import Pipeline
from pyspark.ml.feature import StringIndexer

indexers = [StringIndexer(inputCol=column, outputCol=column+"_index").fit(df) for column in list(set(df.columns)-set(['date'])) ]


pipeline = Pipeline(stages=indexers)
df_r = pipeline.fit(df).transform(df)

df_r.show()
+-------+--------------+----+----+----------+----------+-------------+
|address|          date|food|name|food_index|name_index|address_index|
+-------+--------------+----+----+----------+----------+-------------+
|1111111|20151122045510| gre| Yin|       0.0|       0.0|          0.0|
|1111111|20151122045501| gra| Yin|       2.0|       0.0|          0.0|
|1111111|20151122045500| gre| Yln|       0.0|       2.0|          0.0|
|1111112|20151122065832| gre| Yun|       0.0|       4.0|          3.0|
|1111113|20160101003221| gre| Yan|       0.0|       3.0|          1.0|
|1111111|20160703045231| gre| Yin|       0.0|       0.0|          0.0|
|1111114|20150419134543| gre| Yin|       0.0|       0.0|          5.0|
|1111115|20151123174302| ddd| Yen|       1.0|       1.0|          2.0|
|2111115|      20123192| ddd| Yen|       1.0|       1.0|          4.0|
+-------+--------------+----+----+----------+----------+-------------+