Есть ли dplyr эквивалент data.table:: rleid?
data.table
предлагает удобную rleid
функцию, rleid
для кодирования длин серий:
library(data.table)
DT = data.table(grp=rep(c("A", "B", "C", "A", "B"), c(2, 2, 3, 1, 2)), value=1:10)
rleid(DT$grp)
# [1] 1 1 2 2 3 3 3 4 5 5
Я могу имитировать это в базе R
с помощью:
df <- data.frame(DT)
rep(seq_along(rle(df$grp)$values), times = rle(df$grp)$lengths)
# [1] 1 1 2 2 3 3 3 4 5 5
Кто - нибудь знает dplyr
эквивалент (?) Или "лучший" способ создать rleid
поведение с dplyr
это сделать что - то вроде следующего
library(dplyr)
my_rleid = rep(seq_along(rle(df$grp)$values), times = rle(df$grp)$lengths)
df %>%
mutate(rleid = my_rleid)
Ответы
Ответ 1
Вы можете просто сделать (когда вы загрузили data.table и dplyr):
DT <- DT %>% mutate(rlid = rleid(grp))
это дает:
> DT
grp value rlid
1: A 1 1
2: A 2 1
3: B 3 2
4: B 4 2
5: C 5 3
6: C 6 3
7: C 7 3
8: A 8 4
9: B 9 5
10: B 10 5
Если вы не хотите загружать data.table отдельно, вы также можете использовать (как упомянуто @DavidArenburg в комментариях):
DT <- DT %>% mutate(rlid = data.table::rleid(grp))
И, как сказал @RichardScriven в своем комментарии, вы можете просто скопировать/украсть его:
myrleid <- data.table::rleid
Ответ 2
Если вы хотите использовать только базовые R и dplyr, лучший способ - обернуть свою собственную одну или две строки версии rleid()
как функцию, а затем применить это, когда вам это нужно.
library(dplyr)
myrleid <- function(x) {
x <- rle(x)$lengths
rep(seq_along(x), times=x)
}
## Try it out
DT <- DT %>% mutate(rlid = myrleid(grp))
DT
# grp value rlid
# 1: A 1 1
# 2: A 2 1
# 3: B 3 2
# 4: B 4 2
# 5: C 5 3
# 6: C 6 3
# 7: C 7 3
# 8: A 8 4
# 9: B 9 5
#10: B 10 5
Ответ 3
Вы можете сделать это, используя функцию lag
от dplyr
.
DT <-
DT %>%
mutate(rleid = (grp != lag(grp, 1, default = "asdf"))) %>%
mutate(rleid = cumsum(rleid))
дает
> DT
grp value rleid
1: A 1 1
2: A 2 1
3: B 3 2
4: B 4 2
5: C 5 3
6: C 6 3
7: C 7 3
8: A 8 4
9: B 9 5
10: B 10 5
Ответ 4
Упрощение (без дополнительного пакета) подхода, используемого ФП, может быть:
DT %>%
mutate(rleid = with(rle(grp), rep(seq_along(lengths), lengths)))
grp value rleid
1 A 1 1
2 A 2 1
3 B 3 2
4 B 4 2
5 C 5 3
6 C 6 3
7 C 7 3
8 A 8 4
9 B 9 5
10 B 10 5
Или же:
DT %>%
mutate(rleid = rep(seq(ls <- rle(grp)$lengths), ls))