Вычисление разностей в Pandas после использования groupby приводит к неожиданному результату

У меня есть dataframe, и я пытаюсь добавить столбец последовательных различий к нему. Я нашел метод, который мне очень нравится (и хорошо обобщается для моего варианта использования). Но я заметил одну странную вещь. Можете ли вы помочь мне разобраться в этом?

Вот некоторые данные, которые имеют правильную структуру (код, смоделированный по answer здесь):

Моя цель - добавить новый столбец в этот фреймворк данных, который будет содержать последовательные изменения. Данные должны быть сделаны для этого, но порядок и различие должны выполняться "тиккером", так что пробелы в другом тикере не вызывают NA для данного тикера. Я хочу сделать это, не нарушая структуру данных каким-либо другим способом (т.е. Я не хочу, чтобы результирующий DataFrame был переупорядочен на основе того, что было необходимо для разграничения). Работает следующий код:

До сих пор так хорошо. Если я заменил среднюю строку выше на более сжатый код, показанный здесь, все будет работать:

Быстрая проверка показывает, что на самом деле data1 равно data2. Однако, если я это сделаю:

Что здесь происходит? Когда вы вызываете метод .diff для объекта Pandas, это не просто вызов np.diff? Я знаю, что в классе DataFrame есть метод diff, но я не мог понять, как передать это значение в transform без синтаксиса функции lambda, который я использовал для создания data1. Я что-то упускаю? Почему столбец diffs в data3 вялый? Как я могу вызвать метод Pandas diff в transform без необходимости писать lambda для этого?

Ответы

Ответ 1

Хороший легко воспроизвести пример! больше вопросов должно быть таким!

Просто передайте lambda для преобразования (это равносильно передаче объекта afuncton, например np.diff(или Series.diff), так что это эквивалентно data1/data2

In [32]: data3['diffs'] = data3.groupby('ticker')['value'].transform(Series.diff)

In [34]: data3.sort_index(inplace=True)

In [25]: data3
Out[25]: 
         date    ticker     value     diffs
0  2013-10-03  ticker_2  0.435995  0.015627
1  2013-10-04  ticker_2  0.025926 -0.410069
2  2013-10-02  ticker_1  0.549662       NaN
3  2013-10-01  ticker_0  0.435322       NaN
4  2013-10-02  ticker_2  0.420368  0.120713
5  2013-10-03  ticker_0  0.330335 -0.288936
6  2013-10-04  ticker_1  0.204649 -0.345014
7  2013-10-02  ticker_0  0.619271  0.183949
8  2013-10-01  ticker_2  0.299655       NaN

[9 rows x 4 columns]

Я полагаю, что np.diff не выполняет numpy собственные инструкции ununc для обработки входных данных массива (посредством чего он пытается различными способами принудительно вводить и отправлять выходные данные, например __array__ на входе __array_wrap__ на выходе). Я не совсем уверен, почему, см. Немного больше здесь. Итак, нижняя строка состоит в том, что np.diff не имеет дело с индексом правильно и делает свой собственный расчет (что в этом случае неверно).

Pandas имеет множество методов, в которых они не просто называют функцию numpy, главным образом потому, что они обрабатывают разные типы dtypes, обрабатывают nans и в этом случае обрабатывают специальные отличия. например вы можете передать частоту времени в datelike-index, где он вычисляет, сколько n действительно различается.

Ответ 2

Вы можете видеть, что метод Series .diff() отличается от np.diff():

In [11]: data.value.diff()  # Note the NaN
Out[11]: 
0         NaN
1   -0.410069
2    0.523736
3   -0.114340
4   -0.014955
5   -0.090033
6   -0.125686
7    0.414622
8   -0.319616
Name: value, dtype: float64

In [12]: np.diff(data.value.values)  # the values array of the column
Out[12]: 
array([-0.41006867,  0.52373625, -0.11434009, -0.01495459, -0.09003298,
       -0.12568619,  0.41462233, -0.31961629])

In [13]: np.diff(data.value) # on the column (Series)
Out[13]: 
0   NaN
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8   NaN
Name: value, dtype: float64

In [14]: np.diff(data.value.index)  # er... on the index
Out[14]: Int64Index([8], dtype=int64)

In [15]: np.diff(data.value.index.values)
Out[15]: array([1, 1, 1, 1, 1, 1, 1, 1])