Почему numpy.array() иногда очень медленный?

Я использую функцию numpy.array() для создания numpy.float64 ndarrays из списков.

Я заметил, что это очень медленно, когда либо список содержит None, либо предоставляется список списков.

Ниже приведены примеры со временем. Есть очевидные обходные пути, но почему это так медленно?

Ответы

Ответ 1

Я сообщил об этом как о проблеме. Файлы отчета и исправлений находятся здесь:

https://github.com/numpy/numpy/issues/3392

После исправления:

# was 240 ms, best alternate version was 3.29
In [5]: %timeit numpy.array([None]*100000)
100 loops, best of 3: 7.49 ms per loop

# was 353 ms, best alternate version was 9.65
In [6]: %timeit numpy.array([[0.0]]*100000)
10 loops, best of 3: 23.7 ms per loop

Ответ 2

Я предполагаю, что код для конвертирования списков просто вызывает float для всего. Если аргумент определяет __float__, мы называем это, в противном случае мы будем рассматривать его как строку (бросая исключение в None, мы это поймаем и помещаем в np.nan). Обработка исключений должна быть относительно медленной.

Сроки, похоже, подтверждают эту гипотезу:

import numpy as np
%timeit [None] * 100000
> 1000 loops, best of 3: 1.04 ms per loop

%timeit np.array([0.0] * 100000)
> 10 loops, best of 3: 21.3 ms per loop
%timeit [i.__float__() for i in [0.0] * 100000]
> 10 loops, best of 3: 32 ms per loop


def flt(d):
    try:
        return float(d)
    except:
        return np.nan

%timeit np.array([None] * 100000, dtype=np.float64)
> 1 loops, best of 3: 477 ms per loop    
%timeit [flt(d) for d in [None] * 100000]
> 1 loops, best of 3: 328 ms per loop

Добавление другого случая, чтобы быть очевидным, где я собираюсь с этим. Если бы была явная проверка на None, это было бы не так медленно:

def flt2(d):                              
    if d is None:
        return np.nan
    try:
        return float(d)
    except:
        return np.nan

%timeit [flt2(d) for d in [None] * 100000]
> 10 loops, best of 3: 45 ms per loop