Pandas.at против .loc - программирование

Я изучал, как оптимизировать свой код, и пробежал метод pandas .at. В документации

Настройка

Позволяет использовать .at и .loc и гарантировать, что я получаю то же самое

Это выглядит огромным увеличением скорости. Даже на этапе кэширования 6.11 * 8 выполняется намного быстрее, чем 180

Вопрос

Каковы ограничения .at? Я мотивирован использовать его. В документации говорится, что она похожа на .loc, но она не ведет себя аналогично. Пример:

Таким образом, очевидно, что это не так, даже если намерение должно быть аналогичным.

Тем не менее, кто может дать указания о том, что можно и не может сделать с помощью метода .at?

Ответы

Ответ 1

Обновление: df.get_value устарело с версии 0.21.0. Рекомендуется использовать df.at или df.iat.

df.at может получать только одно значение за раз.

df.loc может выбирать несколько строк и/или столбцов.

Обратите внимание, что существует также df.get_value, что может быть еще быстрее при доступе к одиночным значениям:

In [25]: %timeit df.loc[('a', 'A'), ('c', 'C')]
10000 loops, best of 3: 187 µs per loop

In [26]: %timeit df.at[('a', 'A'), ('c', 'C')]
100000 loops, best of 3: 8.33 µs per loop

In [35]: %timeit df.get_value(('a', 'A'), ('c', 'C'))
100000 loops, best of 3: 3.62 µs per loop

Под капотом df.at[...] вызывает df.get_value, но также некоторые типы проверки на клавишах.

Ответ 2

Как вы спросили об ограничениях .at, вот одна вещь, с которой я недавно столкнулся (используя панд 0.22). Позвольте использовать пример из документации:

df = pd.DataFrame([[0, 2, 3], [0, 4, 1], [10, 20, 30]], index=[4, 5, 6], columns=['A', 'B', 'C'])
df2 = df.copy()

    A   B   C
4   0   2   3
5   0   4   1
6  10  20  30

Если я сейчас сделаю

df.at[4, 'B'] = 100

результат выглядит как ожидалось

    A    B   C
4   0  100   3
5   0    4   1
6  10   20  30

Тем не менее, когда я пытаюсь сделать

 df.at[4, 'C'] = 10.05

похоже, что .at пытается сохранить тип данных (здесь: int):

    A    B   C
4   0  100  10
5   0    4   1
6  10   20  30

Это похоже на разницу с .loc:

df2.loc[4, 'C'] = 10.05

дает желаемый

    A   B      C
4   0   2  10.05
5   0   4   1.00
6  10  20  30.00

Рискованным в приведенном выше примере является то, что это происходит тихо (преобразование из float в int). Когда вы пытаетесь сделать то же самое со строками, выдается ошибка:

df.at[5, 'A'] = 'a_string'

ValueError: недопустимый литерал для int() с основанием 10: 'a_string'

Однако это сработает, если использовать строку, в которой int() действительно работает, как отмечено @n1k31t4 в комментариях, например

df.at[5, 'A'] = '123'

     A   B   C
4    0   2   3
5  123   4   1
6   10  20  30