Последнее наблюдение перенесено вперед В кадре данных?

Я хочу реализовать "Last Observed Carried Forward" для набора данных, над которым я работаю, у которого в конце его нет значений.

Вот простой код для этого (вопрос после него):

LOCF <- function(x)
{
    # Last Observation Carried Forward (for a left to right series)
    LOCF <- max(which(!is.na(x))) # the location of the Last Observation to Carry Forward
    x[LOCF:length(x)] <- x[LOCF]
    return(x)
}


# example:
LOCF(c(1,2,3,4,NA,NA))
LOCF(c(1,NA,3,4,NA,NA))

Теперь это отлично работает для простых векторов. Но если я попытаюсь использовать его в кадре данных:

a <- data.frame(rep("a",4), 1:4,1:4, c(1,NA,NA,NA))
a
t(apply(a, 1, LOCF)) # will make a mess

Он превратит мой фрейм данных в матрицу символов.

Можете ли вы придумать способ сделать LOCF на data.frame, не превращая его в матрицу? (Я мог бы использовать петли и т.д., Чтобы исправить беспорядок, но хотел бы получить более элегантное решение)

Приветствия,

Таль

Ответы

Ответ 1

Это уже существует:

library(zoo)
na.locf(data.frame(rep("a",4), 1:4,1:4, c(1,NA,NA,NA)))

Ответ 2

Добавление новой функции tidyr::fill() для переноса последнего наблюдения в столбце для заполнения NA s:

a <- data.frame(col1 = rep("a",4), col2 = 1:4, 
                col3 = 1:4, col4 = c(1,NA,NA,NA))
a
#   col1 col2 col3 col4
# 1    a    1    1    1
# 2    a    2    2   NA
# 3    a    3    3   NA
# 4    a    4    4   NA

a %>% tidyr::fill(col4)
#   col1 col2 col3 col4
# 1    a    1    1    1
# 2    a    2    2    1
# 3    a    3    3    1
# 4    a    4    4    1

Ответ 3

Существует множество пакетов, реализующих именно эту функциональность. (с такими же базовыми функциями, но с некоторыми отличиями в дополнительных параметрах)

пространство-время:: na.locf
imputeTS:: na.locf
зоопарк:: na.locf
XTS:: na.locf

Ответ 4

Если вы не хотите загружать большой пакет, например зоопарк, только для функции na.locf, вот короткое решение, которое также работает, если в входном векторе есть несколько ведущих NA.

na.locf <- function(x) {
  v <- !is.na(x)
  c(NA, x[v])[cumsum(v)+1]
}

Ответ 5

Этот вопрос старый, но для потомков... лучшим решением является использование пакета data.table с roll = T.

Ответ 6

Я решил решить это с помощью цикла:

fillInTheBlanks <- function(S) {
  L <- !is.na(S)
  c(S[L][1], S[L])[cumsum(L)+1]
}


LOCF.DF <- function(xx)
{
    # won't work well if the first observation is NA

    orig.class <- lapply(xx, class)

    new.xx <- data.frame(t( apply(xx,1, fillInTheBlanks) ))

    for(i in seq_along(orig.class))
    {
        if(orig.class[[i]] == "factor") new.xx[,i] <- as.factor(new.xx[,i])
        if(orig.class[[i]] == "numeric") new.xx[,i] <- as.numeric(new.xx[,i])
        if(orig.class[[i]] == "integer") new.xx[,i] <- as.integer(new.xx[,i])   
    }

    #t(na.locf(t(a)))

    return(new.xx)
}

a <- data.frame(rep("a",4), 1:4,1:4, c(1,NA,NA,NA))
LOCF.DF(a)

Ответ 7

Вместо apply() вы можете использовать lapply(), а затем преобразовать полученный список в data.frame.

LOCF <- function(x) {
    # Last Observation Carried Forward (for a left to right series)
    LOCF <- max(which(!is.na(x))) # the location of the Last Observation to Carry Forward
    x[LOCF:length(x)] <- x[LOCF]
    return(x)
}

a <- data.frame(rep("a",4), 1:4, 1:4, c(1, NA, NA, NA))
a
data.frame(lapply(a, LOCF))