Понимание pandas индексации данных

Мой вопрос: почему работает только второй способ? Кажется, я не вижу разницы в логике выбора/индексации?

Ответы

Ответ 1

Документация pandas гласит:

Возврат представления к копии

Правила о том, когда возвращается представление данных, полностью зависит от NumPy. Всякий раз, когда массив меток или булев вектор участвуют в операции индексирования, результатом будет копия. С однократной индексацией и нарезкой ярлыка/скаляра, например. df.ix [3: 6] или df.ix [:, 'A'], будет возвращено представление.

В df[df.key==1]['D'] сначала вы выполняете булевскую резку (приводя к копии Dataframe), затем вы выбираете столбец ['D'].

В df.D[df.key==1] = 3.4 сначала вы выбираете столбец, затем выполняете булевскую резку в результирующей серии.

Это, по-видимому, имеет значение, хотя я должен признать, что это немного нелогично.

Изменить. Разница была идентифицирована Дугалом, см. его комментарий: с версией 1 копия выполняется, так как метод __getitem__ вызывается для булевого среза. Для версии 2 доступен только метод __setitem__ - таким образом, не возвращается копия, а просто назначается.

Ответ 2

Я уверен, что ваш первый способ возвращает копию вместо представления, и поэтому присвоение ей не изменяет исходные данные. Я не уверен, почему это происходит.

Кажется, это связано с порядком, в котором вы выбираете строки и столбцы, а не синтаксис для получения столбцов. Эти обе работают:

df.D[df.key == 1] = 1
df['D'][df.key == 1] = 1

И ни одна из этих работ:

df[df.key == 1]['D'] = 1
df[df.key == 1].D = 1

Из этих доказательств я бы предположил, что срез df[df.key == 1] возвращает копию. Но это не так! df[df.key == 1] = 0 фактически изменит исходные данные, как если бы это был вид.

Итак, я не уверен. Я считаю, что это изменение изменилось с версией pandas. Кажется, я помню, что df.D использовался для возврата копии и df ['D'], используемых для возврата представления, но это больше не выглядит истинным (pandas 0.10.0).

Если вам нужен более полный ответ, вы должны опубликовать его на форуме pystatsmodels: https://groups.google.com/forum/?fromgroups#!forum/pystatsmodels