Predict.lm() в R - как получить непостоянные полосы прогноза вокруг установленных значений

Итак, в настоящее время я пытаюсь сделать доверительный интервал для линейной модели. Я узнал, что для этого должен использовать pred.liz(), но у меня есть несколько проблем, которые действительно понимают функцию, и мне не нравятся функции, не зная, что происходит. Я нашел несколько советов по этому вопросу, но только с соответствующим R-кодом, никаких реальных объяснений. Это сама функция:

Я думаю, некоторые из вас могут подумать: почему бы просто не попробовать это? И я бы (даже если бы это могло бы не решить все здесь), но я прямо сейчас не знаю, как это сделать. Поскольку я не сейчас, для чего нужны newdata, я не знаю, как его использовать, и если я попытаюсь, я не получу правильный доверительный интервал. Как-то очень важно, как вы выбираете эти данные, но я просто не понимаю!

EDIT: Я хочу добавить, что мое намерение - понять, как работает sched.lm. Под этим я подразумеваю, что не понимаю, работает ли это так, как я думаю. То есть он вычисляет y-hat (предсказанные значения), а затем использует добавление/вычитание для каждой границы upr/lwr интервала для вычисления нескольких точек данных (тогда выглядит как доверительная линия)? Тогда я бы предпочел, почему необходимо иметь такую же длину в newdata, что и в линейной модели.

Ответы

Ответ 1

Составьте некоторые данные:

d <- data.frame(x=c(1,4,5,7),
                y=c(0.8,4.2,4.7,8))

Установите модель:

lm1 <- lm(y~x,data=d)

Интервалы доверия и прогнозирования с исходными значениями x:

p_conf1 <- predict(lm1,interval="confidence")
p_pred1 <- predict(lm1,interval="prediction")

Conf. и пред. интервалы с новыми значениями x (экстраполяция и более мелкие/равномерные интервалы, чем исходные данные):

nd <- data.frame(x=seq(0,8,length=51))
p_conf2 <- predict(lm1,interval="confidence",newdata=nd)
p_pred2 <- predict(lm1,interval="prediction",newdata=nd)

Сплоть все вместе:

par(las=1,bty="l") ## cosmetics
plot(y~x,data=d,ylim=c(-5,12),xlim=c(0,8)) ## data
abline(lm1) ## fit
matlines(d$x,p_conf1[,c("lwr","upr")],col=2,lty=1,type="b",pch="+")
matlines(d$x,p_pred1[,c("lwr","upr")],col=2,lty=2,type="b",pch=1)
matlines(nd$x,p_conf2[,c("lwr","upr")],col=4,lty=1,type="b",pch="+")
matlines(nd$x,p_pred2[,c("lwr","upr")],col=4,lty=2,type="b",pch=1)

Использование новых данных позволяет экстраполяцию за пределы исходных данных; Кроме того, если исходные данные имеют рассеянное или неравномерное расстояние, интервалы прогнозирования (которые не являются прямыми линиями) могут быть недостаточно аппроксимированы линейной интерполяцией между исходными значениями х...

Я не совсем уверен, что вы подразумеваете под "доверительным интервалом для одной конкретной переменной в моей модели"; если вам нужны доверительные интервалы для параметра, то вы должны использовать confint. Если вы хотите предсказания изменений, основанные только на некоторых изменениях параметров (игнорируя неопределенность из-за других параметров), вы действительно хотите использовать type="terms".

interval="none" (по умолчанию) просто говорит R не беспокоить вычисление любых интервалов уверенности или прогноза и возвращать только предсказанные значения.