Подмножество кадра данных на основе ввода столбца (или ранга)

откуда я хочу получить подмножество с первыми элементами каждой группы; что-то вроде:

id не уникален, поэтому подход не должен полагаться на него.

Ответы

Ответ 1

Использование Gavin миллионов строк df:

DF3 <- data.frame(id = sample(1000, 1000000, replace = TRUE),
                  group = factor(rep(1:1000, each = 1000)),
                  value = runif(1000000))
DF3 <- within(DF3, idu <- factor(paste(id, group, sep = "_")))

Я думаю, что самый быстрый способ - изменить порядок кадров данных, а затем использовать duplicated:

system.time({
  DF4 <- DF3[order(DF3$group), ]
  out2 <- DF4[!duplicated(DF4$group), ]
})
# user  system elapsed 
# 0.335   0.107   0.441

Это сравнивается с 7 секундами для метода Gavin fastet lapply + split на моем компьютере.

Как правило, при работе с кадрами данных самый быстрый подход обычно состоит в том, чтобы сгенерировать все индексы, а затем сделать одно подмножество.

Ответ 2

Обновление в свете комментария OP

Если вы делаете это на миллионы + строк, все предоставленные таким образом параметры будут медленными. Ниже приведены некоторые сравнительные тайминги для набора фиктивных данных из 100 000 строк:

set.seed(12)
DF3 <- data.frame(id = sample(1000, 100000, replace = TRUE),
                  group = factor(rep(1:100, each = 1000)),
                  value = runif(100000))
DF3 <- within(DF3, idu <- factor(paste(id, group, sep = "_")))

> system.time(out1 <- do.call(rbind, lapply(split(DF3, DF3["group"]), `[`, 1, )))
   user  system elapsed 
 19.594   0.053  19.984 
> system.time(out3 <- aggregate(DF3[,-2], DF3["group"], function (x) x[1]))
   user  system elapsed 
 12.419   0.141  12.788

Я сдался с миллионными рядами. Гораздо быстрее, верьте или нет, это:

out2 <- matrix(unlist(lapply(split(DF3[, -4], DF3["group"]), `[`, 1,)),
               byrow = TRUE, nrow = (lev <- length(levels(DF3$group))))
colnames(out2) <- names(DF3)[-4]
rownames(out2) <- seq_len(lev)
out2 <- as.data.frame(out2)
out2$group <- factor(out2$group)
out2$idu <- factor(paste(out2$id, out2$group, sep = "_"),
                   levels = levels(DF3$idu))

Выходы (эффективно) одинаковы:

> all.equal(out1, out2)
[1] TRUE
> all.equal(out1, out3[, c(2,1,3,4)])
[1] "Attributes: < Component 2: Modes: character, numeric >"              
[2] "Attributes: < Component 2: target is character, current is numeric >"

(разница между out1 (или out2) и out3 (версия aggregate()) находится только в именах компонентов для ростов.)

со временем:

   user  system elapsed 
  0.163   0.001   0.168

по проблеме 100 000 строк и по этой проблеме в миллион строк:

set.seed(12)
DF3 <- data.frame(id = sample(1000, 1000000, replace = TRUE),
                  group = factor(rep(1:1000, each = 1000)),
                  value = runif(1000000))
DF3 <- within(DF3, idu <- factor(paste(id, group, sep = "_")))

со временем

   user  system elapsed 
 11.916   0.000  11.925

Работа с матричной версией (которая создает out2) быстрее выполняет миллионы строк, которые другие версии выполняют при задании проблемы в 100 000 строк. Это просто показывает, что работа с матрицами очень быстрая, а узкое место в моей версии do.call() rbind() - результат результата вместе.

Задача проблемы с миллионными рядами была выполнена с помощью:

system.time({out4 <- matrix(unlist(lapply(split(DF3[, -4], DF3["group"]),
                                          `[`, 1,)),
                            byrow = TRUE,
                            nrow = (lev <- length(levels(DF3$group))))
             colnames(out4) <- names(DF3)[-4]
             rownames(out4) <- seq_len(lev)
             out4 <- as.data.frame(out4)
             out4$group <- factor(out4$group)
             out4$idu <- factor(paste(out4$id, out4$group, sep = "_"),
                                levels = levels(DF3$idu))})

Оригинал

Если ваши данные находятся в DF, скажем, затем:

do.call(rbind, lapply(with(DF, split(DF, group)), head, 1))

сделает то, что вы хотите:

> do.call(rbind, lapply(with(DF, split(DF, group)), head, 1))
  idu group
1   1     1
2   4     2
3   7     3

Если новые данные находятся в DF2, мы получим:

> do.call(rbind, lapply(with(DF2, split(DF2, group)), head, 1))
  id group idu value
1  1     1 1_1    34
2  4     2 4_2     6
3  1     3 1_3    34

Но для скорости мы, скорее всего, захотим подмножество вместо использования head(), и мы можем немного выиграть, не используя with(), например:

do.call(rbind, lapply(split(DF2, DF2$group), `[`, 1, ))

> system.time(replicate(1000, do.call(rbind, lapply(split(DF2, DF2$group), `[`, 1, ))))
   user  system elapsed 
  3.847   0.040   4.044
> system.time(replicate(1000, do.call(rbind, lapply(split(DF2, DF2$group), head, 1))))
   user  system elapsed 
  4.058   0.038   4.111
> system.time(replicate(1000, aggregate(DF2[,-2], DF2["group"], function (x) x[1])))
   user  system elapsed 
  3.902   0.042   4.106

Ответ 3

Я думаю, что это сделает трюк:

aggregate(data["idu"], data["group"], function (x) x[1])

Для вашего обновленного вопроса я рекомендую использовать ddply из пакета plyr:

ddply(data, .(group), function (x) x[1,])

Ответ 4

Одно решение с использованием plyr, если ваши данные находятся в объекте с именем zzz:

ddply(zzz, "group", function(x) x[1 ,])

Другая опция, которая берет разницу между строками и должна быть быстрее, но полагается на объект, который заказывается перед рукой. Это также предполагает, что у вас нет группового значения 0:

zzz <- zzz[order(zzz$group) ,]

zzz[ diff(c(0,zzz$group)) != 0, ]