PyMC3 Байесовское линейное регрессионное прогнозирование с использованием sklearn.datasets

Я пытаюсь реализовать модели Байесовской линейной регрессии, используя PyMC3 с REAL DATA (т.е. не из линейной функции + гауссовский шум) из наборов данных в sklearn.datasets. Я выбрал набор регрессионных данных с наименьшим количеством атрибутов (т.е. load_diabetes()), форма которого (442, 10); то есть 442 samples и 10 attributes.

Я считаю, что у меня работала модель, а потом выглядят достаточно прилично, чтобы попытаться предсказать, как это работает, но... Я понял, что понятия не имею, как предсказать с помощью этих байесовских моделей! Я стараюсь избегать использования обозначений glm и patsy, потому что мне трудно понять, что на самом деле происходит при использовании этого.

Если я действительно правильно делаю прогноз (чего я, вероятно, нет), то кто-нибудь может помочь мне оптимизировать мою модель. Я не знаю, если меньше mean squared error, absolute error, или что-то в этом роде работает в байесовских рамках. В идеале я хотел бы получить массив number_of_rows = количество строк в наборе тестов атрибутов/данных X_te и количество столбцов, которые будут выборками из заднего распределения.

Ответы

Ответ 1

Я думаю, что одна из проблем с вашей моделью заключается в том, что ваши данные имеют очень разные масштабы, у вас есть диапазон ~ 0.3 для ваших "Xs" и ~ 300 для вашего "Ys". Следовательно, вы должны ожидать больших склонов (и сигмы), которые ваши предвидения задают. Один логический вариант - настроить ваши приоритеты, как в следующем примере.

#Generate Model
linear_model = pm.Model()

with linear_model: 
    # Priors for unknown model parameters    
    alpha = pm.Normal("alpha", mu=y_tr.mean(),sd=10)
    betas = pm.Normal("betas", mu=0, sd=1000, shape=X.shape[1])
    sigma = pm.HalfNormal("sigma", sd=100) # you could also try with a HalfCauchy that has longer/fatter tails
    mu = alpha + pm.dot(betas, X_tr.T)
    likelihood = pm.Normal("likelihood", mu=mu, sd=sigma, observed=y_tr)
    step = pm.NUTS()
    trace = pm.sample(1000, step)

chain = trace[100:]
pm.traceplot(chain);

Задние прогностические проверки показывают, что у вас более или менее разумная модель.

sns.kdeplot(y_tr, alpha=0.5, lw=4, c='b')
for i in range(100):
    sns.kdeplot(ppc['likelihood'][i], alpha=0.1, c='g')

Другой вариант заключается в том, чтобы поместить данные в один и тот же масштаб, стандартизируя его, сделав это, вы получите, что наклон должен быть около + -1, и в общем случае вы можете использовать тот же самый диффуз для любых данных (что-то полезное, если только у вас есть информативные приоритеты, которые вы можете использовать). Фактически, многие люди рекомендуют эту практику для обобщенных линейных моделей. Вы можете больше узнать об этом в книге анализ балийских данных или Статистическое переосмысление

Если вы хотите предсказать значения, у вас есть несколько вариантов, нужно использовать среднее значение выводимых параметров, например:

alpha_pred = chain['alpha'].mean()
betas_pred = chain['betas'].mean(axis=0)

y_pred = alpha_pred + np.dot(betas_pred, X_tr.T)

Другой вариант - использовать pm.sample_ppc для получения образцов прогнозируемых значений, которые учитывают неопределенность в ваших оценках.

Основная идея делать PPC - сравнить предсказанные значения с вашими данными, чтобы проверить, где они оба согласны, а где нет. Эта информация может использоваться, например, для улучшения модели. Выполнение

pm.sample_ppc(trace, model=linear_model, samples=100)

Дает вам 100 образцов, каждый из которых имеет 331 прогнозируемое наблюдение (так как в вашем примере y_tr имеет длину 331). Следовательно, вы можете сравнить каждую прогнозируемую точку данных с образцом размером 100, взятым из заднего. Вы получаете распределение прогнозируемых значений, потому что задний сам является распределением возможных параметров (распределение отражает неопределенность). Что касается аргументов sample_ppc: samples указать, сколько точек из заднего вы получаете, каждая точка является вектором параметров. size указывает, сколько раз вы используете этот вектор параметров для выборки прогнозируемых значений (по умолчанию size=1).

У вас есть больше примеров использования sample_ppc в этом учебнике