В чем разница между множественным R-квадратом и скорректированным R-квадратом в однократной регрессии наименьших квадратов?
Может ли кто-нибудь объяснить статистически наивному, что такое разница между Multiple R-squared
и Adjusted R-squared
? Я делаю одновариантный регрессионный анализ следующим образом:
v.lm <- lm(epm ~ n_days, data=v)
print(summary(v.lm))
Результаты:
Call:
lm(formula = epm ~ n_days, data = v)
Residuals:
Min 1Q Median 3Q Max
-693.59 -325.79 53.34 302.46 964.95
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2550.39 92.15 27.677 <2e-16 ***
n_days -13.12 5.39 -2.433 0.0216 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746, Adjusted R-squared: 0.1451
F-statistic: 5.921 on 1 and 28 DF, p-value: 0.0216
Ответы
Ответ 1
"Регулировка" в скорректированном R-квадрате связана с количеством переменных и количеством наблюдений.
Если вы продолжаете добавлять переменные (предсказатели) к вашей модели, R-squared будет улучшаться, т.е. предсказатели будут объяснять дисперсию, но некоторые из этих улучшений могут быть вызваны только случайностью. Таким образом, скорректированный R-квадрат пытается исправить это, принимая во внимание соотношение (N-1)/(N-k-1), где N = количество наблюдений и k = число переменных (предикторов).
Вероятно, это не проблема в вашем случае, поскольку у вас есть одна вариация.
Некоторые ссылки:
Ответ 2
Скорректированное R-квадрат близко, но отличается от значения R2. Вместо того, чтобы основываться на объясненной сумме SSR квадратов и общей сумме квадратов SSY, она основана на общей дисперсии (количество, которое мы обычно не вычисляем), s2T = SSY/(n - 1) и дисперсии ошибок MSE (из таблицы ANOVA) и выполняется так: скорректированный R-squared = (s2T - MSE)/s2T.
Этот подход обеспечивает лучшую основу для оценки улучшения подгонки из-за добавления объясняющей переменной, но в ней нет простой обобщающей интерпретации, которую R2 имеет.
Если я не ошибся, вы должны проверить значения скорректированного R-квадрата и R-квадрата следующим образом:
s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T
С другой стороны, R2 является: SSR/SSY, где SSR = SSY - SSE
attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY
Ответ 3
R-квадрат не зависит от количества переменных в модели. Скорректированное R-квадрат.
Скорректированное R-квадрат добавляет штраф за добавление переменных к модели, которые не связаны с переменной, которую вы пытаетесь объяснить. Вы можете использовать его, чтобы проверить, соответствует ли переменная той вещи, которую вы пытаетесь объяснить.
Скорректированный R-квадрат R-квадрат с добавлением некоторых делений, чтобы он зависел от числа переменных в модели.
Ответ 4
Обратите внимание, что в дополнение к числу предсказательных переменных приведенная выше формула R-squared также регулирует размер выборки. Небольшой образец даст обманчиво большое R-квадрат.
Ping Yin and Xitao Fan, J. of Experimental Education 69 (2): 203-224, "Оценка усадки R-квадратов при множественной регрессии", сравнивает различные методы настройки r-квадрата и заключает, что обычно используемые приведенные выше, не являются хорошими. Они рекомендуют формулу Олкина и Пратта.
Однако, я видел некоторые признаки того, что размер популяции оказывает гораздо больший эффект, чем указывает любая из этих формул. Я не уверен, что любая из этих формул достаточно хороша, чтобы вы могли сравнивать регрессии, выполненные с очень разными размерами выборки (например, 2000 против 200 000 выборок, стандартные формулы почти не будут корректировать размер выборки). Я бы сделал некоторую перекрестную проверку, чтобы проверить r-квадрат на каждом образце.