Ответ 1
ddply(df, "X1", numcolwise(sum))
см. ?numcolwise
для деталей и примеров.
Я хочу суммировать строки, которые имеют одно и то же значение в одном столбце:
> df <- data.frame("1"=c("a","b","a","c","c"), "2"=c(1,5,3,6,2), "3"=c(3,3,4,5,2))
> df
X1 X2 X3
1 a 1 3
2 b 5 3
3 a 3 4
4 c 6 5
5 c 2 2
Для одного столбца (X2) данные могут быть агрегированы для получения сумм всех строк, имеющих одно и то же значение X1:
> ddply(df, .(X1), summarise, X2=sum(X2))
X1 X2
1 a 4
2 b 5
3 c 8
Как мне сделать то же самое для X3 и произвольное количество других столбцов, кроме X1?
Это результат, который я хочу:
X1 X2 X3
1 a 4 7
2 b 5 3
3 c 8 7
ddply(df, "X1", numcolwise(sum))
см. ?numcolwise
для деталей и примеров.
aggregate
может легко сделать это с помощью интерфейса формулы:
aggregate(. ~ X1, data=df, FUN=sum)
## X1 X2 X3
## 1 a 4 7
## 2 b 5 3
## 3 c 8 7
Эквивалентное:
aggregate(cbind(X2, X3) ~ X1, data=df, FUN=sum)
aggregate
- отличная функция для таких вещей:
aggregate(df[,-1],df["X1"],sum)
X1 X2 X3
1 a 4 7
2 b 5 3
3 c 8 7
И базовая R-версия метода numcolwise
из plyr:
aggregate(df[,sapply(df,is.numeric)],df["X1"],sum)
A data.table
решение для эффективности памяти и элегантности кодирования
library(data.table)
DT <- data.table(df)
DT[, lapply(.SD, sum), by = X1]
.SD
- это подмножество таблицы данных. для каждой группы, определяемой значениями X1
. Есть 3 полезные виньетки, связанные с пакетом data.table
.