Понимание сообщения об ошибке ddply
Я пытаюсь понять, почему я получаю сообщение об ошибке при использовании ddply.
Пример данных:
data<-data.frame(area=rep(c("VA","OC","ES"),each=4),
sex=rep(c("Male","Female"),each=2,times=3),
year=rep(c(2009,2010),times=6),
bin=c(110,120,125,125,110,130,125,80,90,90,80,140),
shell_length=c(.4,4,1,2,.2,5,.4,4,.8,4,.3,4))
bin7<-ddply(data, .(area,year,sex,bin), summarize,n_bin=length(shell_length))
Сообщение об ошибке:
Ошибка в .fun(штука,...): отсутствует аргумент "by", без значения по умолчанию
Вчера я получил сообщение об ошибке. Я перезапустил R и переработал код, и все было в порядке. Сегодня утром я снова получил сообщение об ошибке, и перезагрузка R не решила проблему.
Я также попытался запустить пример code и получил то же сообщение об ошибке.
# Summarize a dataset by two variables
require(plyr)
dfx <- data.frame(
group = c(rep('A', 8), rep('B', 15), rep('C', 6)),
sex = sample(c("M", "F"), size = 29, replace = TRUE),
age = runif(n = 29, min = 18, max = 54)
)
# Note the use of the '.' function to allow
# group and sex to be used without quoting
ddply(dfx, .(group, sex), summarize,
mean = round(mean(age), 2),
sd = round(sd(age), 2))
R информация
R version 3.2.1 (2015-06-18)
Platform: i386-w64-mingw32/i386 (32-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
locale:
[1] LC_COLLATE=English_United States.1252
[2] LC_CTYPE=English_United States.1252
[3] LC_MONETARY=English_United States.1252
[4] LC_NUMERIC=C
[5] LC_TIME=English_United States.1252
attached base packages:
[1] grid stats graphics grDevices utils datasets
[7] methods base
other attached packages:
[1] Hmisc_3.17-0 ggplot2_1.0.1 Formula_1.2-1
[4] survival_2.38-1 car_2.0-26 MASS_7.3-40
[7] xlsx_0.5.7 xlsxjars_0.6.1 rJava_0.9-7
[10] plyr_1.8.3 latticeExtra_0.6-26 RColorBrewer_1.1-2
[13] lattice_0.20-31
Если кто-то может объяснить, почему это происходит, я был бы признателен.
Спасибо
Ответы
Ответ 1
Как указано в комментарии Narendra к вопросу, эта ошибка может быть вызвана загрузкой других пакетов, у которых есть функция с именем summarize
(или summarise
), которая не работает как функция в plyr
. Например:
library(plyr)
library(Hmisc)
ddply(iris, "Species", summarize, mean_sepal_length = mean(Sepal.Length))
#> Error in .fun(piece, ...) : argument "by" is missing, with no default
Одним из решений является вызов правильной функции с помощью ::
и правильного пространства имен:
ddply(iris, "Species", plyr::summarize, mean_sepal_length = mean(Sepal.Length))
#> Species mean_sepal_length
#> 1 setosa 5.006
#> 2 versicolor 5.936
#> 3 virginica 6.588
В качестве альтернативы можно отсоединить пакет, который имеет неправильную функцию:
detach(package:Hmisc)
ddply(iris, "Species", summarize, mean_sepal_length = mean(Sepal.Length))
#> Species mean_sepal_length
#> 1 setosa 5.006
#> 2 versicolor 5.936
#> 3 virginica 6.588
Наконец, если вам нужны оба пакета и вы не хотите беспокоиться с ::
, их можно загрузить в другом порядке:
library(Hmisc)
library(plyr)
ddply(iris, "Species", summarize, mean_sepal_length = mean(Sepal.Length))
#> Species mean_sepal_length
#> 1 setosa 5.006
#> 2 versicolor 5.936
#> 3 virginica 6.588
Ответ 2
У меня была аналогичная проблема (с другим набором данных, но с тем же сообщением об ошибке), но я обнаружил, что ddplyr использовал английскую орфографию "суммировать". После того, как я изменил орфографию, код работал.
Вот код, который я использовал. Когда я использовал орфографию "z", я получил сообщение об ошибке Error in .fun(piece, ...) : argument "by" is missing, with no default
; но изменение на "s" решило его.
library(plyr)
ddply(InsectSprays,.(spray),summarise,sum=sum(count))