Ответ 1
По умолчанию с raw = FALSE
, poly()
вычисляется ортогональный многочлен. Он внутренне устанавливает матрицу модели с исходным кодированием x, x ^ 2, x ^ 3,... сначала, а затем масштабирует столбцы, чтобы каждый столбец был ортогонален предыдущим. Это не изменяет установленные значения, но имеет то преимущество, что вы можете видеть, что определенный порядок в полиноме значительно улучшает регрессию по более низким порядкам.
Рассмотрим простые данные cars
с остановкой ответа dist
ance и вождением speed
. Физически это должно иметь квадратичную зависимость, но в этом (старом) наборе данных квадратичный член не имеет значения:
m1 <- lm(dist ~ poly(speed, 2), data = cars)
m2 <- lm(dist ~ poly(speed, 2, raw = TRUE), data = cars)
В ортогональном кодировании вы получаете следующие коэффициенты в summary(m1)
:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 42.980 2.146 20.026 < 2e-16 ***
poly(speed, 2)1 145.552 15.176 9.591 1.21e-12 ***
poly(speed, 2)2 22.996 15.176 1.515 0.136
Это показывает, что существует очень значительный линейный эффект, тогда как второй порядок несуществен. Последнее p-значение (то есть одно из наивысшего порядка в многочлене) такое же, как в исходном кодировании:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.47014 14.81716 0.167 0.868
poly(speed, 2, raw = TRUE)1 0.91329 2.03422 0.449 0.656
poly(speed, 2, raw = TRUE)2 0.09996 0.06597 1.515 0.136
но p-значения более низкого порядка резко меняются. Причина в том, что в модели m1
регрессоры ортогональны, а они сильно коррелированы в m2
:
cor(model.matrix(m1)[, 2], model.matrix(m1)[, 3])
## [1] 4.686464e-17
cor(model.matrix(m2)[, 2], model.matrix(m2)[, 3])
## [1] 0.9794765
Таким образом, в исходном кодировании вы можете интерпретировать только p-значение speed
, если speed^2
остается в модели. И поскольку оба регрессора сильно коррелированы, один из них можно отбросить. Однако в ортогональном кодировании speed^2
фиксируется только квадратичная часть, которая не была зафиксирована линейным членом. И тогда становится ясно, что линейная часть значительна, а квадратичная часть не имеет никакого дополнительного значения.