Получить идентификатор группы обратно в pandas dataframe

Мне интересно группировать по имени и рангу и, возможно, получать агрегированные значения

Но я хотел бы получить поле в исходном df, которое содержит номер группы для этой строки, например

но он довольно медленный на большом фреймворке данных, поэтому я решил, что может быть лучше встроенный способ pandas для этого.

Ответы

Ответ 1

В объекте DataFrameGroupBy.grouper хранится много удобных вещей. Например:

>>> df = pd.DataFrame({'Name': ['foo', 'bar'] * 3,
                   'Rank': np.random.randint(0,3,6),
                   'Val': np.random.rand(6)})
>>> grouped = df.groupby(["Name", "Rank"])
>>> grouped.grouper.
grouped.grouper.agg_series        grouped.grouper.indices
grouped.grouper.aggregate         grouped.grouper.labels
grouped.grouper.apply             grouped.grouper.levels
grouped.grouper.axis              grouped.grouper.names
grouped.grouper.compressed        grouped.grouper.ngroups
grouped.grouper.get_group_levels  grouped.grouper.nkeys
grouped.grouper.get_iterator      grouped.grouper.result_index
grouped.grouper.group_info        grouped.grouper.shape
grouped.grouper.group_keys        grouped.grouper.size
grouped.grouper.groupings         grouped.grouper.sort
grouped.grouper.groups

и так:

>>> df["GroupId"] = df.groupby(["Name", "Rank"]).grouper.group_info[0]
>>> df
  Name  Rank       Val  GroupId
0  foo     0  0.302482        2
1  bar     0  0.375193        0
2  foo     2  0.965763        4
3  bar     2  0.166417        1
4  foo     1  0.495124        3
5  bar     2  0.728776        1

Там может быть более приятный псевдоним для grouper.group_info[0], скрывающегося где-то, но это все равно должно работать.

Ответ 2

Правильное решение - использовать grouper.label_info:

df["GroupId"] = df.groupby(["Name", "Rank"]).grouper.label_info

Он автоматически связывает каждую строку в кадре данных df с соответствующей меткой группы.

Ответ 3

Используйте GroupBy.ngroup из pandas 0.20. 2+:

df["GroupId"] = df.groupby(["Name", "Rank"]).ngroup()
print (df)
  Name  Rank       Val  GroupId
0  foo     2  0.451724        4
1  bar     0  0.944676        0
2  foo     0  0.822390        2
3  bar     2  0.063603        1
4  foo     1  0.938892        3
5  bar     2  0.332454        1