Код Numba медленнее, чем чистый питон

Я работал над ускорением вычисления перераспределения для фильтра частиц. Поскольку у python есть много способов ускорить его, я бы попробовал их все. К сожалению, версия numba невероятно медленная. Поскольку Numba должен привести к ускорению, я предполагаю, что это ошибка с моей стороны.

Любая идея, почему код numba настолько медленный? Я предположил, что это будет по крайней мере сопоставимо с Numpy.

Обратите внимание: если у кого-нибудь есть идеи о том, как ускорить выборки кода Numpy или Cython, это тоже будет хорошо :) Мой главный вопрос касается Numba.

Ответы

Ответ 1

Проблема в том, что numba не может использовать тип lookup. Если вы поместите в свой метод print nb.typeof(lookup), вы увидите, что numba обрабатывает его как объект, который медленный. Обычно я просто определял тип lookup в locals dict, но я получал странную ошибку. Вместо этого я создал небольшую оболочку, чтобы я мог явно определять типы ввода и вывода.

@nb.jit(nb.f8[:](nb.f8[:]))
def numba_cumsum(x):
    return np.cumsum(x)

@nb.autojit
def numba_resample2(qs, xs, rands):
    n = qs.shape[0]
    #lookup = np.cumsum(qs)
    lookup = numba_cumsum(qs)
    results = np.empty(n)

    for j in range(n):
        for i in range(n):
            if rands[j] < lookup[i]:
                results[j] = xs[i]
                break
    return results

Тогда мои тайминги:

print "Timing Numba Function:"
%timeit numba_resample(qs, xs, rands)

print "Timing Revised Numba Function:"
%timeit numba_resample2(qs, xs, rands)

Timing Numba Function:
100 loops, best of 3: 8.1 ms per loop
Timing Revised Numba Function:
100000 loops, best of 3: 15.3 µs per loop

Вы можете пойти еще немного быстрее, если вы используете jit вместо autojit:

@nb.jit(nb.f8[:](nb.f8[:], nb.f8[:], nb.f8[:]))

Для меня это понижает его с 15,3 микросекунд до 12,5 микросекунд, но все же впечатляет, насколько хорошо работает автоджит.

Ответ 2

Быстрая версия numpy (10x ускорение по сравнению с numpy_resample)

def numpy_faster(qs, xs, rands):
    lookup = np.cumsum(qs)
    mm = lookup[None,:]>rands[:,None]
    I = np.argmax(mm,1)
    return xs[I]