Dplyr без жесткого кодирования имен переменных
Можно ли использовать функцию dplyr mutate без жесткого кодирования имен переменных? Например, работает следующий код, потому что я жестко программирую имя Var1:
> d=expand.grid(1:3, 20:22)
> d
Var1 Var2
1 1 20
2 2 20
3 3 20
4 1 21
5 2 21
6 3 21
7 1 22
8 2 22
9 3 22
> d=mutate(d, x=percent_rank(Var1))
> d
Var1 Var2 x
1 1 20 0.000
2 2 20 0.375
3 3 20 0.750
4 1 21 0.000
5 2 21 0.375
6 3 21 0.750
7 1 22 0.000
8 2 22 0.375
9 3 22 0.750
Однако, когда я делаю переменную именем переменной, она больше не работает:
> my.variable='Var1'
> d=mutate(d, x=percent_rank(my.variable))
> d
Var1 Var2 x
1 1 20 NaN
2 2 20 NaN
3 3 20 NaN
4 1 21 NaN
5 2 21 NaN
6 3 21 NaN
7 1 22 NaN
8 2 22 NaN
9 3 22 NaN
Функции eval() и as.symbol() также не помогают.
Ответы
Ответ 1
Великий Хэдли Уикхем (освященный его именем!) предложил этот в mutatr
группах Google:
d <- expand.grid(1:3, 20:22)
my.variable <- 'Var1'
percent_rank <- function(x) rank(x)/max(rank(x))
call <- substitute(mutate(d, percent_rank(var)),
list(var = as.name(my.variable)))
eval(call)
# Var1 Var2 percent_rank(Var1)
# 1 1 20 0.250
# 2 2 20 0.625
# 3 3 20 1.000
# 4 1 21 0.250
# 5 2 21 0.625
# 6 3 21 1.000
# 7 1 22 0.250
# 8 2 22 0.625
# 9 3 22 1.000
Ответ 2
Вы можете использовать get
и точную среду, в которой находится объект "Var1".
> my.variable = 'Var1'
> mutate(d, x = percent_rank(get(my.variable, envir = as.environment(d))))
Var1 Var2 x
1 1 20 0.000
2 2 20 0.375
3 3 20 0.750
4 1 21 0.000
5 2 21 0.375
6 3 21 0.750
7 1 22 0.000
8 2 22 0.375
9 3 22 0.750
Я предлагаю вам прочитать больше о "нестандартной оценке" в вики "Advanced R programming" от Hadley Wickham: http://adv-r.had.co.nz/Computing-on-the-language.html
ИЗМЕНИТЬ
Этот ответ был недавно проголосован, поэтому я понял, что решение, которое я дал полтора года назад, было не очень большим, и я пользуюсь этой возможностью, чтобы обновить свой ответ.
Так как dplyr 0.3 вы можете использовать стандартную оценочную версию функций dplyr, используя их "fun_" версии.
Также вы должны использовать interp
из lazyeval пакета, если вы выполняете некоторые вычисления по переменным:
my.variable = "Var1"
expr <- lazyeval::interp(~percent_rank(x), x = as.name(my.variable))
mutate_(d, .dots = setNames(list(expr), "x"))
Var1 Var2 x
1 1 20 0.000
2 2 20 0.375
3 3 20 0.750
4 1 21 0.000
5 2 21 0.375
6 3 21 0.750
7 1 22 0.000
8 2 22 0.375
9 3 22 0.750
Ответ 3
В версии devel dplyr
(ожидающей новой версии 0.6.0
) с введением функций quosures
и unquote (!!
, UQ
) для оценки котировок в group_by/summarise/mutate
, это становится проще
my.variable <- quo(Var1)
percent_rank <- function(x) rank(x)/max(rank(x))
d %>%
mutate(x = percent_rank(!!my.variable))
# Var1 Var2 x
#1 1 20 0.250
#2 2 20 0.625
#3 3 20 1.000
#4 1 21 0.250
#5 2 21 0.625
#6 3 21 1.000
#7 1 22 0.250
#8 2 22 0.625
#9 3 22 1.000
Он также имеет другие функции для передачи имен столбцов
mynewvar <- 'x'
d %>%
mutate(!!mynewvar := percent_rank(!!my.variable))
# Var1 Var2 x
#1 1 20 0.250
#2 2 20 0.625
#3 3 20 1.000
#4 1 21 0.250
#5 2 21 0.625
#6 3 21 1.000
#7 1 22 0.250
#8 2 22 0.625
#9 3 22 1.000
Мы также можем создать функцию и передать аргумент
f1 <- function(dat, myvar, colN){
myvar <- enquo(myvar)
colN <- quo_name(enquo(colN))
dat %>%
mutate(!!colN := percent_rank(!!myvar))
}
f1(d, Var1, x)
# Var1 Var2 x
#1 1 20 0.250
#2 2 20 0.625
#3 3 20 1.000
#4 1 21 0.250
#5 2 21 0.625
#6 3 21 1.000
#7 1 22 0.250
#8 2 22 0.625
#9 3 22 1.000
В приведенной выше функции enquo
выполняет аналогичную функциональность как substitute
из base R
при вводе аргументов пользователя и преобразовании в quosure
. Так как нам нужно имя столбца в строке, мы можем использовать quo_name
для преобразования в строку, а оценка внутри вызова mutate
выполняется с помощью unquoting (!!
или UQ
)
данные
d <- expand.grid(1:3, 20:22)