"Слишком много индексировщиков" с DataFrame.loc

Я прочитал документы о слайсерах миллион раз, но никогда не обнимал его, поэтому я все еще пытаюсь чтобы определить, как использовать loc, чтобы нарезать a DataFrame с помощью MultiIndex.

Чтобы выбрать только значения A0 и C1, я могу сделать:

который также выполняет выбор из трех уровней и даже с кортежами:

Итак, почему я не могу выбрать все значения с первого уровня индекса?

Примечание. Я знаю, что это возможно с помощью df.xs('C1', level='third'), но текущее поведение .loc кажется непоследовательным.

Ответы

Ответ 1

Чтобы быть в безопасности (в смысле: это будет работать во всех случаях), вам нужно индексировать индекс строки и столбцы, для которых вы можете легко использовать pd.IndexSlice:

In [26]: idx = pd.IndexSlice

In [27]: df.loc[idx[:, :, 'C1', :],:]
Out[27]:
                           value
first second third fourth
A0    B0     C1    D0          2
                   D1          3
      B1     C1    D0         10
                   D1         11
A1    B0     C1    D0         18
                   D1         19
      B1     C1    D0         26
                   D1         27
A2    B0     C1    D0         34
                   D1         35
      B1     C1    D0         42
                   D1         43
A3    B0     C1    D0         50
                   D1         51
      B1     C1    D0         58
                   D1         59

Здесь idx[:, :, 'C1', :] - более простой способ написать [slice(None), slice(None),'C1', slice(None)]. Вместо pd.IndexSlice вы также можете использовать np.s_, который немного короче.

Причина, по которой работают другие, я не совсем уверен. Но см. Примечание в документации здесь: http://pandas.pydata.org/pandas-docs/stable/advanced.html#using-slicers (первый красный предупреждающий блок), где указано, что:

Вы должны указать все оси в спецификаторе .loc, что означает индекс для индекса и столбцов. Их некоторые неоднозначные случаи, когда пропущенный индекс можно было неправильно интерпретировать как индексирование обеих осей, а не сказать MuliIndex для строк.

Ответ 2

Причина, по которой это не работает, связана с необходимостью указания оси индексации (упомянутой в http://pandas.pydata.org/pandas-docs/stable/advanced.html). Альтернативное решение вашей проблемы состоит в том, чтобы просто сделать это:

df.loc(axis=0)[:, :, 'C1', :]

Pandas иногда путается, когда индексы похожи или содержат одинаковые значения. Если у вас должен быть столбец с именем "C1" или что-то, что вам также нужно будет сделать в этом стиле для нарезки/выбора.