Самый быстрый способ изменить значения переменных в виде столбцов
У меня есть набор данных, содержащий около 3 миллионов строк и следующую структуру:
PatientID| Year | PrimaryConditionGroup
---------------------------------------
1 | Y1 | TRAUMA
1 | Y1 | PREGNANCY
2 | Y2 | SEIZURE
3 | Y1 | TRAUMA
Являясь довольно новым для R, у меня есть некоторые проблемы с поиском правильного пути для изменения данных в структуре, описанной ниже:
PatientID| Year | TRAUMA | PREGNANCY | SEIZURE
----------------------------------------------
1 | Y1 | 1 | 1 | 0
2 | Y2 | 0 | 0 | 1
3 | Y1 | 1 | 0 | 1
Мой вопрос: какой самый быстрый/самый элегантный способ создания data.frame, где значения PrimaryConditionGroup становятся столбцами, сгруппированными по PatientID и Year (подсчитывая количество вхождений)?
Ответы
Ответ 1
Есть, вероятно, более лаконичные способы сделать это, но для чистой скорости трудно превзойти решение на основе data.table
:
df <- read.table(text="PatientID Year PrimaryConditionGroup
1 Y1 TRAUMA
1 Y1 PREGNANCY
2 Y2 SEIZURE
3 Y1 TRAUMA", header=T)
library(data.table)
dt <- data.table(df, key=c("PatientID", "Year"))
dt[ , list(TRAUMA = sum(PrimaryConditionGroup=="TRAUMA"),
PREGNANCY = sum(PrimaryConditionGroup=="PREGNANCY"),
SEIZURE = sum(PrimaryConditionGroup=="SEIZURE")),
by = list(PatientID, Year)]
# PatientID Year TRAUMA PREGNANCY SEIZURE
# [1,] 1 Y1 1 1 0
# [2,] 2 Y2 0 0 1
# [3,] 3 Y1 1 0 0
EDIT: aggregate()
предоставляет базовое R-решение, которое может быть или не быть более идиоматичным. (Единственное усложнение заключается в том, что агрегат возвращает матрицу, а не data.frame, вторая строка ниже фиксирует это.)
out <- aggregate(PrimaryConditionGroup ~ PatientID + Year, data=df, FUN=table)
out <- cbind(out[1:2], data.frame(out[3][[1]]))
2nd EDIT Наконец, сжатое решение, использующее пакет reshape
, доставит вас в одно и то же место.
library(reshape)
mdf <- melt(df, id=c("PatientID", "Year"))
cast(PatientID + Year ~ value, data=j, fun.aggregate=length)
Ответ 2
В версиях >=1.9.0
есть быстрые melt
и dcast
data.table специальные методы, реализованные на C. Здесь сравнение с другими отличными ответами на пост @Josh на 3-миллионные данные строки (просто исключая base: aggregate, поскольку это занимало довольно некоторое время).
Для получения дополнительной информации о записи новостей перейдите здесь.
Предполагаю, что у вас 1000 пациентов и всего 5 лет. Вы можете соответствующим образом отрегулировать переменные patients
и year
.
require(data.table) ## >= 1.9.0
require(reshape2)
set.seed(1L)
patients = 1000L
year = 5L
n = 3e6L
condn = c("TRAUMA", "PREGNANCY", "SEIZURE")
# dummy data
DT <- data.table(PatientID = sample(patients, n, TRUE),
Year = sample(year, n, TRUE),
PrimaryConditionGroup = sample(condn, n, TRUE))
DT_dcast <- function(DT) {
dcast.data.table(DT, PatientID ~ Year, fun.aggregate=length)
}
reshape2_dcast <- function(DT) {
reshape2:::dcast(DT, PatientID ~ Year, fun.aggregate=length)
}
DT_raw <- function(DT) {
DT[ , list(TRAUMA = sum(PrimaryConditionGroup=="TRAUMA"),
PREGNANCY = sum(PrimaryConditionGroup=="PREGNANCY"),
SEIZURE = sum(PrimaryConditionGroup=="SEIZURE")),
by = list(PatientID, Year)]
}
# system.time(.) timed 3 times
# Method Time_rep1 Time_rep2 Time_rep3
# dcast_DT 0.393 0.399 0.396
# reshape2_DT 3.784 3.457 3.605
# DT_raw 0.647 0.680 0.657
dcast.data.table
примерно на 1,6 раза быстрее, чем обычная агрегация с использованием data.table
и 8,8x быстрее, чем reshape2:::dcast
.