Попытка использовать dplyr для group_by и применить scale()

Пытаясь использовать dplyr to group_by переменную stud_ID в следующем фрейме данных, как в этом вопросе SO:

Я попробовал следующее, чтобы получить оценки шкалы студентом (а не шкалу оценок для наблюдений для всех студентов):

Три масштабированные переменные (behavioral_scale, cognitive_scale и affective_scale) имеют только 12 наблюдений - такое же количество наблюдений для первого ученика, ABB112292.

Что здесь происходит? Как я могу получить масштабированные баллы по отдельности?

Ответы

Ответ 1

Проблема, похоже, заключается в базовой функции scale(), которая ожидает матрицу. Попробуйте написать свой собственный.

scale_this <- function(x){
  (x - mean(x, na.rm=TRUE)) / sd(x, na.rm=TRUE)
}

Тогда это работает:

library("dplyr")

# reproducible sample data
set.seed(123)
n = 1000
df <- data.frame(stud_ID = sample(LETTERS, size=n, replace=TRUE),
                 behavioral_scale = runif(n, 0, 10),
                 cognitive_scale = runif(n, 1, 20),
                 affective_scale = runif(n, 0, 1) )
scaled_data <- 
  df %>%
  group_by(stud_ID) %>%
  mutate(behavioral_scale_ind = scale_this(behavioral_scale),
         cognitive_scale_ind = scale_this(cognitive_scale),
         affective_scale_ind = scale_this(affective_scale))

Или, если вы открыты для решения data.table:

library("data.table")

setDT(df)

cols_to_scale <- c("behavioral_scale","cognitive_scale","affective_scale")

df[, lapply(.SD, scale_this), .SDcols = cols_to_scale, keyby = factor(stud_ID)]

Ответ 2

Это была известная проблема в dplyr, исправление было объединено с версией разработки, которую вы можете установить через

# install.packages("devtools")
devtools::install_github("hadley/dplyr")

В стабильной версии также должно работать следующее:

scale_this <- function(x) as.vector(scale(x))