Быстрая альтернатива для запуска функции numpy по всем строкам в Pandas DataFrame

У меня есть кадр данных Pandas, созданный следующим образом:

Тогда у меня есть функция, которая принимает значения каждого гена (строки) для вычисления определенного балла:

В действительности мне нужно применить эту функцию на 40K по строкам. И в настоящее время он работает очень медленно, используя Pandas 'apply':

Какая более быстрая альтернатива для реализации?

Ответы

Ответ 1

Более быстрый способ - реализовать векторизованную версию функции, которая напрямую работает на двумерном ndarray. Это очень удобно, поскольку многие функции в numpy могут работать на двухмерном ndarray, управляемом с помощью параметра axis. Возможная реализация:

def sparseness2(xs):
    nr = np.sqrt(xs.shape[1])
    a = np.sum(np.abs(xs), axis=1)
    b = np.sqrt(np.sum(np.square(xs), axis=1))
    sparseness = (nr - a/b) / (nr - 1)
    return sparseness

res_arr = sparseness2(express_df.values)
res2 = pd.Series(res_arr, index=express_df.index)

Некоторые тесты:

from pandas.util.testing import assert_series_equal
res1 = express_df.apply(sparseness, axis=1)
assert_series_equal(res1, res2) #OK
%timeit sparseness2(express_df.values)
# 1000 loops, best of 3: 655 µs per loop

Ответ 2

Здесь один векторный подход, использующий np.einsum для выполнения всех этих операций за один проход по всему файловому кадру. Теперь этот np.einsum предположительно довольно эффективен для таких целей умножения и суммирования. В нашем случае мы можем использовать его для выполнения суммирования по одному измерению для случая xvec_sum и возведения в квадрат и суммирования для случая xvecsq_sum. Привязка будет выглядеть так:

def sparseness_vectorized(A):
    nsqrt = np.sqrt(A.shape[1])
    B = np.einsum('ij->i',np.abs(A))/np.sqrt(np.einsum('ij,ij->i',A,A))    
    denom = nsqrt - B
    enum  = nsqrt - 1
    return denom/enum

Тесты времени выполнения -

В этом разделе сравниваются все подходы, перечисленные до сих пор, для решения проблемы, в том числе и в вопросе.

In [235]: df = create(1000)
     ...: express_df  = df.ix[:,1:]
     ...: 

In [236]: %timeit express_df.apply(sparseness, axis=1)
1 loops, best of 3: 1.36 s per loop

In [237]: %timeit sparseness2(express_df.values)
1000 loops, best of 3: 247 µs per loop

In [238]: %timeit sparseness_vectorized(express_df.values)
1000 loops, best of 3: 231 µs per loop



In [239]: df = create(5000)
     ...: express_df  = df.ix[:,1:]
     ...: 

In [240]: %timeit express_df.apply(sparseness, axis=1)
1 loops, best of 3: 6.66 s per loop

In [241]: %timeit sparseness2(express_df.values)
1000 loops, best of 3: 1.14 ms per loop

In [242]: %timeit sparseness_vectorized(express_df.values)
1000 loops, best of 3: 1.06 ms per loop