Как получить суммарную сумму по группе в R?
Предположим, что у меня есть такой кадр данных, что:
df<-data.frame(id=1:8,group=c(1,0,0,1,1,0,1,0),rep=c(rep("d1",4),rep("d2",4)),value=rbinom(8,1,0.6))
df
id group rep value
1 1 1 d1 0
2 2 0 d1 0
3 3 0 d1 0
4 4 1 d1 1
5 5 1 d2 1
6 6 0 d2 0
7 7 1 d2 1
8 8 0 d2 1
Какой лучший способ получить кумулятивную сумму на group
и rep
так, чтобы:
cumsum
group d1 d1+d2 d1+d2+d3
0 0 1 ...
1 1 3 ...
Ответы
Ответ 1
library(data.table)
# convert to data.table in place
setDT(df)
# dcast and do individual sums
dt.cast = dcast.data.table(df, group ~ rep, value.var = 'value',
fun.aggregate = sum)
dt.cast
# group d1 d2
#1: 0 0 1
#2: 1 1 2
# cumsum
dt.cast[, as.list(cumsum(unlist(.SD))), by = group]
# group d1 d2
#1: 0 0 1
#2: 1 1 3
Ответ 2
Я бы рекомендовал работать с
tidy форма данных.
Здесь подход с dplyr, но было бы тривиально перевести на
data.table или base R.
Сначала я создам набор данных, установив случайное семя, чтобы сделать
пример воспроизводимого:
set.seed(1014)
df <- data.frame(
id = 1:8,
group = c(1, 0, 0, 1, 1, 0, 1, 0),
rep = c(rep("d1", 4), rep("d2", 4)),
value = rbinom(8, 1, 0.6)
)
df
%> id group rep value
%> 1 1 1 d1 1
%> 2 2 0 d1 0
%> 3 3 0 d1 0
%> 4 4 1 d1 1
%> 5 5 1 d2 1
%> 6 6 0 d2 1
%> 7 7 1 d2 1
%> 8 8 0 d2 1
Далее, используя dplyr, я сначала скрою отдельные строки по группам и
затем вычислить суммарную сумму:
library(dplyr)
df <- df %>%
group_by(group, rep) %>%
summarise(value = sum(value)) %>%
mutate(csum = cumsum(value))
df
%> Source: local data frame [4 x 4]
%> Groups: group
%>
%> group rep value csum
%> 1 0 d1 0 0
%> 2 0 d2 2 2
%> 3 1 d1 2 2
%> 4 1 d2 2 4
В большинстве случаев вам лучше оставить данные в этой форме (это будет
легче работать), но вы можете изменить форму, если вам нужно:
library(reshape2)
dcast(df, group ~ rep, value.var = "csum")
%> group d1 d2
%> 1 0 0 2
%> 2 1 2 4