Преобразование значений NA на основе первой регистрации и ближайших значений
Я уже задавал подобный вопрос, но теперь я хочу ограничить новые значения АН.
У меня есть некоторые данные, как это:
Date 1 Date 2 Date 3 Date 4 Date 5 Date 6
A NA 0.1 0.2 NA 0.3 0.2
B 0.1 NA NA 0.3 0.2 0.1
C NA NA NA NA 0.3 NA
D 0.1 0.2 0.3 NA 0.1 NA
E NA NA 0.1 0.2 0.1 0.3
Я хотел бы изменить значения NA моих данных на основе первой даты, когда значение зарегистрировано. Так, например, для А первая регистрация - это Дата 2. Затем я хочу, чтобы перед этой регистрацией значения NA в А были равны 0, а после первой регистрации значения NA стали средними значениями ближайших значений (среднее значение даты 3). и 5).
Если последним значением является NA, преобразуйте его в последнее зарегистрированное значение (как в C и D). В случае E все значения NA станут 0.
Получите что-то вроде этого:
Date 1 Date 2 Date 3 Date 4 Date 5 Date 6
A 0 0.1 0.2 0.25 0.3 0.2
B 0.1 0.2 0.2 0.3 0.2 0.1
C 0 0 0 0 0.3 0.3
D 0.1 0.2 0.3 0.2 0.1 0.1
E 0 0 0.1 0.2 0.1 0.3
Вы можете мне помочь? Я не уверен, как это сделать в R.
Ответы
Ответ 1
Вот способ использования na.approx
из пакета zoo
и apply
с MARGIN = 1
(так что это, вероятно, не очень эффективно, но сделайте свою работу).
library(zoo)
df1 <- as.data.frame(t(apply(dat, 1, na.approx, method = "constant", f = .5, na.rm = FALSE)))
Это приводит к
df1
# V1 V2 V3 V4 V5
#A NA 0.1 0.2 0.25 0.3
#B 0.1 0.2 0.2 0.30 0.2
#C NA NA NA NA 0.3
#E NA NA 0.1 0.20 0.1
Замените NA
и переименуйте столбцы.
df1[is.na(df1)] <- 0
names(df1) <- names(dat)
df1
# Date_1 Date_2 Date_3 Date_4 Date_5
#A 0.0 0.1 0.2 0.25 0.3
#B 0.1 0.2 0.2 0.30 0.2
#C 0.0 0.0 0.0 0.00 0.3
#E 0.0 0.0 0.1 0.20 0.1
объяснение
Учитывая вектор
x <- c(0.1, NA, NA, 0.3, 0.2)
na.approx(x)
возвращает x
с линейными интерполированными значениями
#[1] 0.1000000 0.1666667 0.2333333 0.3000000 0.2000000
Но OP запросил постоянные значения, поэтому нам нужен аргумент method = "constant"
из функции approx
.
na.approx(x, method = "constant")
# [1] 0.1 0.1 0.1 0.3 0.2
Но это все еще не то, что запрашивал OP, потому что он переносит последнее наблюдение вперед, в то время как вы хотите получить среднее значение для ближайших значений non- NA
. Поэтому нам нужен аргумент f
(также из approx
)
na.approx(x, method = "constant", f = .5)
# [1] 0.1 0.2 0.2 0.3 0.2 # looks good
От ?approx
f: for method = "constant" - число от 0 до 1 включительно, указывающее на компромисс между left- и пошаговыми функциями справа. Если y0 и y1 являются значениями слева и справа от точки, то значение равно y0, если f == 0, y1, если f == 1, и y0 * (1-f) +y1 * f для промежуточных значений. Таким образом, результат является непрерывным справа для f == 0 и непрерывным left- для f == 1, даже для конечных значений non-.
Наконец, если мы не хотим заменять NA
в начале и конце каждой строки, нам нужно na.rm = FALSE
.
От ?na.approx
na.rm: логично. Если результат (сплайновой) интерполяции все еще приводит к NA, должны ли они быть удалены?
данные
dat <- structure(list(Date_1 = c(NA, 0.1, NA, NA), Date_2 = c(0.1, NA,
NA, NA), Date_3 = c(0.2, NA, NA, 0.1), Date_4 = c(NA, 0.3, NA,
0.2), Date_5 = c(0.3, 0.2, 0.3, 0.1)), .Names = c("Date_1", "Date_2",
"Date_3", "Date_4", "Date_5"), class = "data.frame", row.names = c("A",
"B", "C", "E"))
РЕДАКТИРОВАТЬ
Если в последнем столбце есть NA
мы можем заменить их на последний non- NA
прежде чем применять na.approx
как показано выше.
dat$Date_6[is.na(dat$Date_6)] <- dat[cbind(1:nrow(dat),
max.col(!is.na(dat), ties.method = "last"))][is.na(dat$Date_6)]
Ответ 2
Это еще один возможный ответ, используя na.locf
из пакета zoo
. Изменение: apply
на самом деле не требуется; Это решение заполняет последнее наблюдаемое значение, если это значение отсутствует.
# create the dataframe
Date1 <- c(NA,.1,NA,NA)
Date2 <- c(.1, NA,NA,NA)
Date3 <- c(.2,NA,NA,.1)
Date4 <- c(NA,.3,NA,.2)
Date5 <- c(.3,.2,.3,.1)
Date6 <- c(.1,NA,NA,NA)
df <- as.data.frame(cbind(Date1,Date2,Date3,Date4,Date5,Date6))
rownames(df) <- c('A','B','C','D')
> df
Date1 Date2 Date3 Date4 Date5 Date6
A NA 0.1 0.2 NA 0.3 0.1
B 0.1 NA NA 0.3 0.2 NA
C NA NA NA NA 0.3 NA
D NA NA 0.1 0.2 0.1 NA
# Load library
library(zoo)
df2 <- t(na.locf(t(df),na.rm = F)) # fill last observation carried forward
df3 <- t(na.locf(t(df),na.rm = F, fromLast = T)) # last obs carried backward
df4 <- (df2 + df3)/2 # mean of both dataframes
df4 <- t(na.locf(t(df4),na.rm = F)) # fill last observation carried forward
df4[is.na(df4)] <- 0 # NA values are 0
Date1 Date2 Date3 Date4 Date5 Date6
A 0.0 0.1 0.2 0.25 0.3 0.1
B 0.1 0.2 0.2 0.30 0.2 0.2
C 0.0 0.0 0.0 0.00 0.3 0.3
D 0.0 0.0 0.1 0.20 0.1 0.1
Ответ 3
Вот еще один вариант с базой R + rollmean
из zoo
(явно легко переписать в базу R для этого случая с размером окна k = 2
).
t(apply(df, 1, function(x) {
means <- c(0, rollmean(na.omit(x), 2), tail(na.omit(x), 1))
replace(x, is.na(x), means[1 + cumsum(!is.na(x))[is.na(x)]])
}))
# Date1 Date2 Date3 Date4 Date5 Date6
# A 0.0 0.1 0.2 0.25 0.3 0.2
# B 0.1 0.2 0.2 0.30 0.2 0.1
# C 0.0 0.0 0.0 0.00 0.3 0.3
# D 0.1 0.2 0.3 0.20 0.1 0.1
# E 0.0 0.0 0.1 0.20 0.1 0.3
Пояснение Предположим, что x
является первой строкой df
:
# Date1 Date2 Date3 Date4 Date5 Date6
# A NA 0.1 0.2 NA 0.3 0.2
затем
means
# [1] 0.00 0.15 0.25 0.25 0.20
является вектором 0, скользящим средним двух следующих не-NA элементов и последнего не-NA элемента. Тогда все, что нам нужно сделать, это replace
те элементы x
которые есть is.na(x)
. Мы заменим их элементами means
с индексами 1 + cumsum(!is.na(x))[is.na(x)]
. Это самая сложная часть. Вот
cumsum(!is.na(x))
# [1] 0 1 2 2 3 4
Это означает, что первый элемент x
видел 0 не-NA элементов, в то время как, скажем, последний видел 4 не-NA элемента. затем
cumsum(!is.na(x))[is.na(x)]
# [1] 0 2
о тех элементах NA в x
которые мы хотим заменить. Обратите внимание, что тогда
1 + cumsum(!is.na(x))[is.na(x)]
# [1] 1 3
соответствует элементам means
которые мы хотим использовать для замены.
Ответ 4
Я нахожу нижеприведенную функцию слишком сложной, но она работает, так что вот так.
fun <- function(x){
if(anyNA(x)){
inx <- which(!is.na(x))
if(inx[1] > 1) x[seq_len(inx[1] - 1)] <- 0
prev <- inx[1]
for(i in inx[-1]){
if(i - prev > 1){
m <- mean(c(x[i], x[prev]))
while(prev < i){
x[prev] <- m
prev <- prev + 1
}
}
prev <- i
}
}
x
}
res <- t(apply(df1, 1, fun))
res <- as.data.frame(res)
res
# Date.1 Date.2 Date.3 Date.4 Date.5
#A 0.0 0.1 0.25 0.25 0.3
#B 0.2 0.2 0.20 0.30 0.2
#C 0.0 0.0 0.00 0.00 0.3
#E 0.0 0.0 0.10 0.20 0.1
Данные.
df1 <- read.table(text = "
Date.1 Date.2 Date.3 Date.4 Date.5
A NA 0.1 0.2 NA 0.3
B 0.1 NA NA 0.3 0.2
C NA NA NA NA 0.3
E NA NA 0.1 0.2 0.1
", header = TRUE)