Применить функцию к группам внутри data.frame в R
Я пытаюсь получить кумулятивную сумму переменной (v) для групп ( "a" и "b" ) в пределах кадра данных. Как я могу получить результат внизу - строки которого нумеруются правильно - в столбцы cs моего фрейма данных?
> library(nlme)
> g <- factor(c("a","b","a","b","a","b","a","b","a","b","a","b"))
> v <- c(1,4,1,4,1,4,2,8,2,8,2,8)
> cs <- rep(0,12)
> d <- data.frame(g,v,cs)
> d
g v cs
1 a 1 0
2 b 4 0
3 a 1 0
4 b 4 0
5 a 1 0
6 b 4 0
7 a 2 0
8 b 8 0
9 a 2 0
10 b 8 0
11 a 2 0
12 b 8 0
> r=gapply(d,FUN="cumsum",form=~g, which="v")
>r
$a
v
1 1
3 2
5 3
7 5
9 7
11 9
$b
v
2 4
4 8
6 12
8 20
10 28
12 36
> str(r)
List of 2
$ a:'data.frame': 6 obs. of 1 variable:
..$ v: num [1:6] 1 2 3 5 7 9
$ b:'data.frame': 6 obs. of 1 variable:
..$ v: num [1:6] 4 8 12 20 28 36
Я думаю, я мог бы найти какой-то кропотливый способ получить данные из этих dataframes в d $cs, но там будет какая-то легкая настройка, которой я не хватает.
Ответы
Ответ 1
Я бы использовал ave
. Если вы посмотрите на источник ave
, вы увидите, что он фактически завершает решение Martin Morgan .
R> g <- factor(c("a","b","a","b","a","b","a","b","a","b","a","b"))
R> v <- c(1,4,1,4,1,4,2,8,2,8,2,8)
R> d <- data.frame(g,v)
R> d$cs <- ave(v, g, FUN=cumsum)
R> d
g v cs
1 a 1 1
2 b 4 4
3 a 1 2
4 b 4 8
5 a 1 3
6 b 4 12
7 a 2 5
8 b 8 20
9 a 2 7
10 b 8 28
11 a 2 9
12 b 8 36
Ответ 2
split<-
- довольно странный зверь
split(d$cs, d$g) <- lapply(split(d$v, d$g), cumsum)
приводящий к
> d
g v cs
1 a 1 1
2 b 4 4
3 a 1 2
4 b 4 8
5 a 1 3
6 b 4 12
7 a 2 5
8 b 8 20
9 a 2 7
10 b 8 28
11 a 2 9
12 b 8 36
Ответ 3
Моим инструментом выбора для этого является пакет plyr:
require(plyr)
> ddply(d,.(g),transform,cs = cumsum(v))
g v cs
1 a 1 1
2 a 1 2
3 a 1 3
4 a 2 5
5 a 2 7
6 a 2 9
7 b 4 4
8 b 4 8
9 b 4 12
10 b 8 20
11 b 8 28
12 b 8 36
Ответ 4
> library(nlme)
> g <- factor(c("a","b","a","b","a","b","a","b","a","b","a","b"))
> v <- c(1,4,1,4,1,4,2,8,2,8,2,8)
> cs <- rep(0,12)
> d <- data.frame(g,v,cs)
> d <- d[order(d$g),]
> temp <- by(d$v,d$g,cumsum)
> d$cs <- do.call("c",temp)
> d
g v cs
1 a 1 1
3 a 1 2
5 a 1 3
7 a 2 5
9 a 2 7
11 a 2 9
2 b 4 4
4 b 4 8
6 b 4 12
8 b 8 20
10 b 8 28
12 b 8 36
Другое решение с использованием функции, но мне пришлось сначала заказать данные