Условный расчет среднего - программирование

Я хотел бы рассчитать средство кадра данных для каждого фактора, но только если выполнено определенное условие. Например, у меня есть этот фрейм данных:

Я могу легко вычислить средства для каждой переменной с dplyr следующим образом:

Однако, я хочу только вычислить средства, если есть 11 или более наблюдений, иначе положите NA в соответствующие ячейки. Другими словами, результат должен выглядеть следующим образом:

Ответы

Ответ 1

Мы могли бы создать функцию (f1), которая будет делать среднее значение if, количество значений не NA больше 11 (sum(!is.na(x))>11), иначе мы получим NA. Я использую NA_real_, поскольку по умолчанию NA будет иметь логический класс, и в некоторых пакетах может быть столкновение класса.

Используя dplyr, мы группируем по name и используем функцию (f1) в пределах summarise_each

f1 <- function(x) if(sum(!is.na(x))>11) mean (x, na.rm=TRUE) else NA_real_
library(dplyr) 
df  %>% 
     group_by(name) %>%
     summarise_each(funs(f1))

Или аналогичный подход с использованием data.table состоял бы в преобразовании data.frame в data.table (setDT(df)). Перебираем столбцы (lapply(.SD, ..)), используем ту же функцию, сгруппированную по name

library(data.table)
setDT(df)[,  lapply(.SD, f1), by = name]
#   name variable1 variable2 variable3
#1:    A         1         2        NA
#2:    B         1        NA         3
#3:    C        NA         2         3

Ответ 2

Альтернативное преобразование ранее данных из широкого в длинное.

library(reshape2)
df1 <- melt(df, id.vars = c("name")) # From wide to long
df1 <- df1 %>% group_by(name, variable) %>% 
       filter(n()>10) %>%
       summarize(mean = mean(value))

Выход длинного формата:

   name  variable mean
1    A variable1    1
2    A variable2    2
3    A variable3   NA
4    B variable1    1
5    B variable2   NA
6    B variable3    3
7    C variable1   NA
8    C variable2    2
9    C variable3    3

Широкоформатный выход:

dcast(df1,  name ~ variable, value.var = "mean")

  name variable1 variable2 variable3
1    A         1         2        NA
2    B         1        NA         3
3    C        NA         2         3