Эффективный калькулятор Python Pandas для многих бета-версий
У меня есть много (4000+) CSV данных запаса (Date, Open, High, Low, Close), которые я импортирую в отдельные фреймы Pandas для выполнения анализа. Я новичок в python и хочу рассчитать скользящую 12-месячную бета-версию для каждого запаса, я нашел сообщение для вычисления скользящей бета-версии (Python Pandas вычисляет бета-версию подвижного состава с использованием скользящей привязки к объекту groupby в векторизованном виде), однако при использовании в моем коде ниже занимает более 2,5 часов! Учитывая, что я могу выполнять те же вычисления в таблицах SQL менее чем за 3 минуты, это слишком медленно.
Как повысить производительность моего кода ниже, чем SQL? Я понимаю, что Pandas/python имеет такую возможность. Мой текущий метод перемещается по каждой строке, которая, как мне известно, замедляет производительность, но я не знаю какого-либо общего способа выполнить вычисление бета-запроса в кадре данных на фрейме данных.
Примечание: первые 2 этапа загрузки CSV в отдельные кадры данных и вычисление ежедневной доходности занимает всего ~ 20 секунд. Все мои фреймы CSV хранятся в словаре под названием "FilesLoaded" с такими именами, как "XAO".
Ваша помощь будет очень признательна!
Спасибо:)
import pandas as pd, numpy as np
import datetime
import ntpath
pd.set_option('precision',10) #Set the Decimal Point precision to DISPLAY
start_time=datetime.datetime.now()
MarketIndex = 'XAO'
period = 250
MinBetaPeriod = period
# ***********************************************************************************************
# CALC RETURNS
# ***********************************************************************************************
for File in FilesLoaded:
FilesLoaded[File]['Return'] = FilesLoaded[File]['Close'].pct_change()
# ***********************************************************************************************
# CALC BETA
# ***********************************************************************************************
def calc_beta(df):
np_array = df.values
m = np_array[:,0] # market returns are column zero from numpy array
s = np_array[:,1] # stock returns are column one from numpy array
covariance = np.cov(s,m) # Calculate covariance between stock and market
beta = covariance[0,1]/covariance[1,1]
return beta
#Build Custom "Rolling_Apply" function
def rolling_apply(df, period, func, min_periods=None):
if min_periods is None:
min_periods = period
result = pd.Series(np.nan, index=df.index)
for i in range(1, len(df)+1):
sub_df = df.iloc[max(i-period, 0):i,:]
if len(sub_df) >= min_periods:
idx = sub_df.index[-1]
result[idx] = func(sub_df)
return result
#Create empty BETA dataframe with same index as RETURNS dataframe
df_join = pd.DataFrame(index=FilesLoaded[MarketIndex].index)
df_join['market'] = FilesLoaded[MarketIndex]['Return']
df_join['stock'] = np.nan
for File in FilesLoaded:
df_join['stock'].update(FilesLoaded[File]['Return'])
df_join = df_join.replace(np.inf, np.nan) #get rid of infinite values "inf" (SQL won't take "Inf")
df_join = df_join.replace(-np.inf, np.nan)#get rid of infinite values "inf" (SQL won't take "Inf")
df_join = df_join.fillna(0) #get rid of the NaNs in the return data
FilesLoaded[File]['Beta'] = rolling_apply(df_join[['market','stock']], period, calc_beta, min_periods = MinBetaPeriod)
# ***********************************************************************************************
# CLEAN-UP
# ***********************************************************************************************
print('Run-time: {0}'.format(datetime.datetime.now() - start_time))
Ответы
Ответ 1
Генерация случайных данных о запасах
20 лет ежемесячных данных для 4000 акций
dates = pd.date_range('1995-12-31', periods=480, freq='M', name='Date')
stoks = pd.Index(['s{:04d}'.format(i) for i in range(4000)])
df = pd.DataFrame(np.random.rand(480, 4000), dates, stoks)
df.iloc[:5, :5]
![enter image description here]()
Функция крена
Возвращает объект groupby, готовый к применению пользовательских функций
Смотрите источник
def roll(df, w):
# stack df.values w-times shifted once at each stack
roll_array = np.dstack([df.values[i:i+w, :] for i in range(len(df.index) - w + 1)]).T
# roll_array is now a 3-D array and can be read into
# a pandas panel object
panel = pd.Panel(roll_array,
items=df.index[w-1:],
major_axis=df.columns,
minor_axis=pd.Index(range(w), name='roll'))
# convert to dataframe and pivot + groupby
# is now ready for any action normally performed
# on a groupby object
return panel.to_frame().unstack().T.groupby(level=0)
Бета-функция
Используйте закрытое решение для регрессии OLS
Предположим, столбец 0 является рыночным
Смотрите источник
def beta(df):
# first column is the market
X = df.values[:, [0]]
# prepend a column of ones for the intercept
X = np.concatenate([np.ones_like(X), X], axis=1)
# matrix algebra
b = np.linalg.pinv(X.T.dot(X)).dot(X.T).dot(df.values[:, 1:])
return pd.Series(b[1], df.columns[1:], name='Beta')
демонстрация
rdf = roll(df, 12)
betas = rdf.apply(beta)
тайминг
![enter image description here]()
Проверка
Сравните расчеты с ОП
def calc_beta(df):
np_array = df.values
m = np_array[:,0] # market returns are column zero from numpy array
s = np_array[:,1] # stock returns are column one from numpy array
covariance = np.cov(s,m) # Calculate covariance between stock and market
beta = covariance[0,1]/covariance[1,1]
return beta
print(calc_beta(df.iloc[:12, :2]))
-0.311757542437
print(beta(df.iloc[:12, :2]))
s0001 -0.311758
Name: Beta, dtype: float64
Обратите внимание на первую ячейку
То же значение, что и подтвержденные вычисления выше
betas = rdf.apply(beta)
betas.iloc[:5, :5]
![enter image description here]()
Ответ на комментарий
Полный рабочий пример с имитацией нескольких фреймов данных
num_sec_dfs = 4000
cols = ['Open', 'High', 'Low', 'Close']
dfs = {'s{:04d}'.format(i): pd.DataFrame(np.random.rand(480, 4), dates, cols) for i in range(num_sec_dfs)}
market = pd.Series(np.random.rand(480), dates, name='Market')
df = pd.concat([market] + [dfs[k].Close.rename(k) for k in dfs.keys()], axis=1).sort_index(1)
betas = roll(df.pct_change().dropna(), 12).apply(beta)
for c, col in betas.iteritems():
dfs[c]['Beta'] = col
dfs['s0001'].head(20)
![enter image description here]()
Ответ 2
Использование генератора для повышения эффективности памяти
Имитация данных
m, n = 480, 10000
dates = pd.date_range('1995-12-31', periods=m, freq='M', name='Date')
stocks = pd.Index(['s{:04d}'.format(i) for i in range(n)])
df = pd.DataFrame(np.random.rand(m, n), dates, stocks)
market = pd.Series(np.random.rand(m), dates, name='Market')
df = pd.concat([df, market], axis=1)
Бета-расчет
def beta(df, market=None):
# If the market values are not passed,
# I'll assume they are located in a column
# named 'Market'. If not, this will fail.
if market is None:
market = df['Market']
df = df.drop('Market', axis=1)
X = market.values.reshape(-1, 1)
X = np.concatenate([np.ones_like(X), X], axis=1)
b = np.linalg.pinv(X.T.dot(X)).dot(X.T).dot(df.values)
return pd.Series(b[1], df.columns, name=df.index[-1])
функция крена
Это возвращает генератор и будет гораздо более эффективным с точки зрения памяти
def roll(df, w):
for i in range(df.shape[0] - w + 1):
yield pd.DataFrame(df.values[i:i+w, :], df.index[i:i+w], df.columns)
Собираем все вместе
betas = pd.concat([beta(sdf) for sdf in roll(df.pct_change().dropna(), 12)], axis=1).T
Проверка
ОП бета калькулятор
def calc_beta(df):
np_array = df.values
m = np_array[:,0] # market returns are column zero from numpy array
s = np_array[:,1] # stock returns are column one from numpy array
covariance = np.cov(s,m) # Calculate covariance between stock and market
beta = covariance[0,1]/covariance[1,1]
return beta
Настройка эксперимента
m, n = 12, 2
dates = pd.date_range('1995-12-31', periods=m, freq='M', name='Date')
cols = ['Open', 'High', 'Low', 'Close']
dfs = {'s{:04d}'.format(i): pd.DataFrame(np.random.rand(m, 4), dates, cols) for i in range(n)}
market = pd.Series(np.random.rand(m), dates, name='Market')
df = pd.concat([market] + [dfs[k].Close.rename(k) for k in dfs.keys()], axis=1).sort_index(1)
betas = pd.concat([beta(sdf) for sdf in roll(df.pct_change().dropna(), 12)], axis=1).T
for c, col in betas.iteritems():
dfs[c]['Beta'] = col
dfs['s0000'].head(20)
![enter image description here]()
calc_beta(df[['Market', 's0000']])
0.0020118230147777435
НОТА:
Расчеты те же
Ответ 3
Хотя эффективное подразделение входных данных, установленных на скользящие окна, важно для оптимизации общих расчетов, производительность самого бета-расчета также может быть значительно улучшена.
Следующее оптимизирует только подразделение набора данных на скользящие окна:
def numpy_betas(x_name, window, returns_data, intercept=True):
if intercept:
ones = numpy.ones(window)
def lstsq_beta(window_data):
x_data = numpy.vstack([window_data[x_name], ones]).T if intercept else window_data[[x_name]]
beta_arr, residuals, rank, s = numpy.linalg.lstsq(x_data, window_data)
return beta_arr[0]
indices = [int(x) for x in numpy.arange(0, returns_data.shape[0] - window + 1, 1)]
return DataFrame(
data=[lstsq_beta(returns_data.iloc[i:(i + window)]) for i in indices]
, columns=list(returns_data.columns)
, index=returns_data.index[window - 1::1]
)
Следующее также оптимизирует само вычисление беты:
def custom_betas(x_name, window, returns_data):
window_inv = 1.0 / window
x_sum = returns_data[x_name].rolling(window, min_periods=window).sum()
y_sum = returns_data.rolling(window, min_periods=window).sum()
xy_sum = returns_data.mul(returns_data[x_name], axis=0).rolling(window, min_periods=window).sum()
xx_sum = numpy.square(returns_data[x_name]).rolling(window, min_periods=window).sum()
xy_cov = xy_sum - window_inv * y_sum.mul(x_sum, axis=0)
x_var = xx_sum - window_inv * numpy.square(x_sum)
betas = xy_cov.divide(x_var, axis=0)[window - 1:]
betas.columns.name = None
return betas
Сравнивая производительность двух разных вычислений, вы можете видеть, что по мере увеличения окна, используемого в бета-вычислениях, второй метод значительно превосходит первый: ![enter image description here]()
Сравнивая производительность с реализацией @piRSquared, пользовательский метод оценивается примерно в 350 миллисекунд по сравнению с более чем 2 секундами.
Ответ 4
Дальнейшая оптимизация в реализации @piRSquared как для скорости, так и для памяти. код также упрощен для ясности.
from numpy import nan, ndarray, ones_like, vstack, random
from numpy.lib.stride_tricks import as_strided
from numpy.linalg import pinv
from pandas import DataFrame, date_range
def calc_beta(s: ndarray, m: ndarray):
x = vstack((ones_like(m), m))
b = pinv(x.dot(x.T)).dot(x).dot(s)
return b[1]
def rolling_calc_beta(s_df: DataFrame, m_df: DataFrame, period: int):
result = ndarray(shape=s_df.shape, dtype=float)
l, w = s_df.shape
ls, ws = s_df.values.strides
result[0:period - 1, :] = nan
s_arr = as_strided(s_df.values, shape=(l - period + 1, period, w), strides=(ls, ls, ws))
m_arr = as_strided(m_df.values, shape=(l - period + 1, period), strides=(ls, ls))
for row in range(period, l):
result[row, :] = calc_beta(s_arr[row - period, :], m_arr[row - period])
return DataFrame(data=result, index=s_df.index, columns=s_df.columns)
if __name__ == '__main__':
num_sec_dfs, num_periods = 4000, 480
dates = date_range('1995-12-31', periods=num_periods, freq='M', name='Date')
stocks = DataFrame(data=random.rand(num_periods, num_sec_dfs), index=dates,
columns=['s{:04d}'.format(i) for i in
range(num_sec_dfs)]).pct_change()
market = DataFrame(data=random.rand(num_periods), index=dates, columns=
['Market']).pct_change()
betas = rolling_calc_beta(stocks, market, 12)
% timeit betas = Rolling_calc_beta (акции, рынок, 12)
335 мс ± 2,69 мс на цикл (среднее ± стандартное отклонение из 7 циклов, по 1 циклу каждый)
Ответ 5
но они могут быть блокированными, если вам потребуются бета-вычисления по датам (m) для нескольких акций (n), что приведет к (mxn) количеству расчетов.
Некоторое облегчение можно получить, запустив каждую дату или акции на нескольких ядрах, но тогда у вас будет огромное оборудование.
Основным требованием ко времени для доступных решений является нахождение дисперсии и ко-дисперсии, а также следует избегать использования NaN в данных (индекса и запаса) для правильного расчета согласно пандам == 0,23,0.
Таким образом, повторный запуск приведет к глупому перемещению, если только вычисления не будут кэшированы.
версия numy variance и co-variance также неправильно вычисляет бета-версию, если NaN не отбрасывается.
Реализация Cython необходима для огромного набора данных.