Установка заголовков столбцов DataFrame в MultiIndex
Как преобразовать существующий файл данных с одноуровневыми столбцами в иерархические столбцы index (MultiIndex)?
Пример dataframe:
In [1]:
import pandas as pd
from pandas import Series, DataFrame
df = DataFrame(np.arange(6).reshape((2,3)),
index=['A','B'],
columns=['one','two','three'])
df
Out [1]:
one two three
A 0 1 2
B 3 4 5
Я бы подумал, что reindex() будет работать, но я получаю NaN:
In [2]:
df.reindex(columns=[['odd','even','odd'],df.columns])
Out [2]:
odd even odd
one two three
A NaN NaN NaN
B NaN NaN NaN
То же самое, если я использую DataFrame():
In [3]:
DataFrame(df,columns=[['odd','even','odd'],df.columns])
Out [3]:
odd even odd
one two three
A NaN NaN NaN
B NaN NaN NaN
Этот последний подход действительно работает, если я укажу df.values:
In [4]:
DataFrame(df.values,index=df.index,columns=[['odd','even','odd'],df.columns])
Out [4]:
odd even odd
one two three
A 0 1 2
B 3 4 5
Каков правильный способ сделать это? Почему reindex() дает NaN?
Ответы
Ответ 1
Вы были близки, просто установите столбцы непосредственно в новый (равный размер) индексный (который, если его список-список будет преобразован в мультииндекс)
In [8]: df
Out[8]:
one two three
A 0 1 2
B 3 4 5
In [10]: df.columns = [['odd','even','odd'],df.columns]
In [11]: df
Out[11]:
odd even odd
one two three
A 0 1 2
B 3 4 5
Reindex будет переупорядочивать/фильтровать существующий индекс. Причина, по которой вы получаете все nans, заключается в том, что вы говорите, что найду существующие столбцы, соответствующие этому новому индексу; none match, так что вы получаете
Ответ 2
Для тех, кто ищет функциональный эквивалент прямого назначения, вы можете использовать df.set_axis
:
df2.set_axis([['odd','even','odd'], df.columns], axis=1, inplace=False)
odd even odd
one two three
A 0 1 2
B 3 4 5
Если вы не хотите, чтобы он был установлен на месте (так дешево, как переназначение, показанное в этом ответе), вам нужно будет указать inplace=False
(по умолчанию установлено значение True
).