Ответ 1
В dplyr
версии 0.2 вы можете сделать это с помощью оператора do
:
> df %>% group_by(b) %>% do(data.frame(a = rep(.$a[1], 3)))
#Source: local data frame [6 x 2]
#Groups: b
#
# b a
#1 1 1
#2 1 1
#3 1 1
#4 2 2
#5 2 2
#6 2 2
Я не уверен, какую функцию использовать для выполнения следующих действий:
library(data.table)
dt = data.table(a = 1:4, b = 1:2)
dt[, rep(a[1], 3), by = b]
# b V1
#1: 1 1
#2: 1 1
#3: 1 1
#4: 2 2
#5: 2 2
#6: 2 2
Оба summarise
и mutate
недовольны этой длиной:
library(dplyr)
df = data.frame(a = 1:4, b = 1:2)
df %.% group_by(b) %.% summarise(rep(a[1], 3))
#Error: expecting a single value
df %.% group_by(b) %.% mutate(rep(a[1], 3))
#Error: incompatible size (3), expecting 2 (the group size) or 1
В dplyr
версии 0.2 вы можете сделать это с помощью оператора do
:
> df %>% group_by(b) %>% do(data.frame(a = rep(.$a[1], 3)))
#Source: local data frame [6 x 2]
#Groups: b
#
# b a
#1 1 1
#2 1 1
#3 1 1
#4 2 2
#5 2 2
#6 2 2
В то время как ответ @beginneR работает, он, похоже, не является реальной заменой поведению data.table
. Рассмотрим:
df <- data.frame(a = 1, b = rep(1:1e4, 2))
dt <- data.table(df)
microbenchmark(times=5,
dt[, rep(a[1], 3), by = b],
df %>% group_by(b) %>% do(data.frame(a = rep(.$a[1], 3)))
)
имеет реализацию dplyr
> 200x медленнее.
Unit: milliseconds
expr min lq median uq
dt[, rep(a[1], 3), by = b] 13.14318 13.70248 14.60524 15.26676
df %>% group_by(b) %>% do(data.frame(a = rep(.$a[1], 3))) 3269.40731 3359.11614 3583.19430 3736.67162
Может быть, есть лучший способ сделать это с помощью do
, который не требует вызова data.frame
each do
? Кроме того, синтаксис немного связан с тем, что очень просто в data.table
.
В противном случае, согласно ссылка на проблему Hadley, похоже, что это предполагается реализовать в dplyr
в 3.1, который выглядит следующим образом.