Сгруппированные операции, которые приводят к длине, не равной 1 или длине группы в dplyr

Я не уверен, какую функцию использовать для выполнения следующих действий:

Ответы

Ответ 1

В dplyr версии 0.2 вы можете сделать это с помощью оператора do:

> df %>% group_by(b) %>% do(data.frame(a = rep(.$a[1], 3)))
#Source: local data frame [6 x 2]
#Groups: b
#
#  b a
#1 1 1
#2 1 1
#3 1 1
#4 2 2
#5 2 2
#6 2 2

Ответ 2

В то время как ответ @beginneR работает, он, похоже, не является реальной заменой поведению data.table. Рассмотрим:

df <- data.frame(a = 1, b = rep(1:1e4, 2))
dt <- data.table(df)
microbenchmark(times=5,
  dt[, rep(a[1], 3), by = b],
  df %>% group_by(b) %>% do(data.frame(a = rep(.$a[1], 3)))
)

имеет реализацию dplyr > 200x медленнее.

Unit: milliseconds
                                                      expr        min         lq     median         uq
                                dt[, rep(a[1], 3), by = b]   13.14318   13.70248   14.60524   15.26676
 df %>% group_by(b) %>% do(data.frame(a = rep(.$a[1], 3))) 3269.40731 3359.11614 3583.19430 3736.67162

Может быть, есть лучший способ сделать это с помощью do, который не требует вызова data.frame each do? Кроме того, синтаксис немного связан с тем, что очень просто в data.table.

В противном случае, согласно ссылка на проблему Hadley, похоже, что это предполагается реализовать в dplyr в 3.1, который выглядит следующим образом.