Почему использование обновления на lm внутри сгруппированных data.table потеряет данные модели?

Хорошо, это странно. Я подозреваю, что это ошибка внутри data.table, но было бы полезно, если кто-нибудь сможет объяснить, почему это происходит - что делает update точно?

Я использую трюк list(list()) внутри data.table для хранения установленных моделей. Когда вы создаете последовательность объектов lm, каждая для разных группировок, а затем update этих моделей, данные модели для всех моделей становятся данными модели последней группы. Это похоже на то, что ссылка где-то где-то, где должна была быть сделана копия, но я не могу найти, где и не могу воспроизвести это вне lm и update.

Начиная с данных диафрагмы, сначала сделайте три разных размера выборки, а затем подберите модель lm для каждого вида, обновите эти модели:

В исходной таблице данных разное количество каждого вида

Но обновленная вторая подгонка отображает 42 для всех моделей

Мы также можем посмотреть на атрибут модели, который содержит данные, используемые для подгонки, и увидеть, что вся модель действительно использует данные конечных групп. Вопрос в том, как это произошло?

Ответы

Ответ 1

Это не ответ, но слишком длинный для комментария

Компонент .Environment для компонентов терминов идентичен для каждой результирующей модели

e1 <- attr(fit[['V1']][[1]]$terms, '.Environment')
e2 <- attr(fit[['V1']][[2]]$terms, '.Environment')
e3 <- attr(fit[['V1']][[3]]$terms, '.Environment')
identical(e1,e2)
## TRUE
identical(e2, e3)
## TRUE

Похоже, что data.table использует тот же бит памяти (мой нетехнический термин) для каждая оценка j по группам (что является эффективным). Однако, когда вызывается update, он использует это, чтобы обновить модель. Это будет содержать значения из последней группы.

Итак, если вы выдумаете это, он будет работать

fit = DT[, { xx <-list2env(copy(.SD))

             mymodel <-lm(Sepal.Length ~ Sepal.Width + Petal.Length)
             attr(mymodel$terms, '.Environment') <- xx
             list(list(mymodel))}, by= 'Species']





lfit2 <- fit[, list(list(update(V1[[1]], ~.-Sepal.Width))), by = Species]
lfit2[,lapply(V1,nobs)]
V1 V2 V3
1: 41 39 42
# using your exact diagnostic coding.
lfit2[,nobs(V1[[1]]),by = Species]
      Species V1
1:     setosa 41
2: versicolor 39
3:  virginica 42

не долгосрочное решение, но, по крайней мере, обходное решение.