Как заменить NA на подмножество в R (приписывать plyr?)

У меня есть dataframe с длиной и шириной различных членистоногих из кишок саламандр. Поскольку у некоторых кишок были тысячи определенных предметов добычи, я измерял только подмножество каждого типа добычи. Теперь я хочу заменить каждого неизмеримого человека средней длиной и шириной для этой жертвы. Я хочу сохранить блок данных и просто добавить вмененные столбцы (length2, width2). Основная причина заключается в том, что каждая строка также содержит столбцы с данными о дате и местоположении, в которое была собрана саламандра. Я мог бы заполнить NA случайным выбором измеренных индивидуумов, но ради аргумента позвольте предположить, что я просто хочу заменить каждое NA на среднее.

Например, представьте, что у меня есть фреймворк данных, который выглядит примерно так:

В действительности у меня больше столбцов и около 25 разных таксонов и всего ~ 30 000 единиц добычи. Похоже, что пакет plyr может быть идеальным для этого, но я просто не могу понять, как это сделать. Я не очень R или программирование, но я пытаюсь учиться.

Не то, чтобы я знал, что я делаю, но я попытаюсь создать небольшой набор данных для игры, если это поможет.

Вот несколько вещей, которые я пробовал (которые не сработали):

Любые предложения с использованием plyr или нет?

Ответы

Ответ 1

Не моя собственная техника Я видел это на досках некоторое время назад:

dat <- read.table(text = "id    taxa        length  width
101   collembola  2.1     0.9
102   mite        0.9     0.7
103   mite        1.1     0.8
104   collembola  NA      NA
105   collembola  1.5     0.5
106   mite        NA      NA", header=TRUE)


library(plyr)
impute.mean <- function(x) replace(x, is.na(x), mean(x, na.rm = TRUE))
dat2 <- ddply(dat, ~ taxa, transform, length = impute.mean(length),
     width = impute.mean(width))

dat2[order(dat2$id), ] #plyr orders by group so we have to reorder

Изменить Нелинейный подход с циклом for:

for (i in which(sapply(dat, is.numeric))) {
    for (j in which(is.na(dat[, i]))) {
        dat[j, i] <- mean(dat[dat[, "taxa"] == dat[j, "taxa"], i],  na.rm = TRUE)
    }
}

Изменить много спутников позже - это метод data.table и dplyr:

data.table

library(data.table)
setDT(dat)

dat[, length := impute.mean(length), by = taxa][,
    width := impute.mean(width), by = taxa]

dplyr

library(dplyr)

dat %>%
    group_by(taxa) %>%
    mutate(
        length = impute.mean(length),
        width = impute.mean(width)  
    )

Ответ 2

Прежде чем ответить на это, я хочу сказать, что я новичок в R. Следовательно, пожалуйста, дайте мне знать, если вы чувствуете, что мой ответ неправильный.

код:

DF[is.na(DF$length), "length"] <- mean(na.omit(telecom_original_1$length))

и примените его для ширины.

DF обозначает имя data.frame.

Спасибо, Парти

Ответ 3

Расширяясь в решении @Tyler Rinker, предположим, что features - столбцы, которые нужно приписать. В этом случае features <- c('length', 'width'). Затем, используя data.table, решение становится:

library(data.table)
setDT(dat)

dat[, (features) := lapply(.SD, impute.mean), by = taxa, .SDcols = features]