Использование parLapply и clusterExport внутри функции
Я задал соответствующий вопрос здесь, и ответ сработал хорошо: используя parLapply параллельного: не удалось получить доступ к переменным в параллельном коде
Проблема в том, что когда я пытаюсь использовать ответ внутри функции, он не будет работать, поскольку я думаю, что он имеет значение по умолчанию clusterExport
. Я прочитал виньетку и посмотрел файл справки, но приближаюсь к этому с очень ограниченной базой знаний. Как я использовал parLapply
, я ожидал, что он будет вести себя аналогично lapply
, но он не отображается.
Вот моя попытка:
par.test <- function(text.var, gc.rate=10){
ntv <- length(text.var)
require(parallel)
pos <- function(i) {
paste(sapply(strsplit(tolower(i), " "), nchar), collapse=" | ")
}
cl <- makeCluster(mc <- getOption("cl.cores", 4))
clusterExport(cl=cl, varlist=c("text.var", "ntv", "gc.rate", "pos"))
parLapply(cl, seq_len(ntv), function(i) {
x <- pos(text.var[i])
if (i%%gc.rate==0) gc()
return(x)
}
)
}
par.test(rep("I like cake and ice cream so much!", 20))
#gives this error message
> par.test(rep("I like cake and ice cream so much!", 20))
Error in get(name, envir = envir) : object 'text.var' not found
Ответы
Ответ 1
По умолчанию clusterExport
просматривает .GlobalEnv
для экспортируемых объектов, названных в varlist
. Если ваши объекты не находятся в .GlobalEnv
, вы должны сообщить clusterExport
, в какой среде он может найти эти объекты.
Вы можете изменить clusterExport
на следующее (которое я не тестировал, но вы сказали, что работает в комментариях)
clusterExport(cl=cl, varlist=c("text.var", "ntv", "gc.rate", "pos"), envir=environment())
Таким образом, он будет искать в среде функций для экспорта объектов.
Ответ 2
Другое решение - включить дополнительные переменные в качестве аргументов вашей функции; parLapply также экспортирует их. Если 'text.var' - большие данные, то стоит сделать их аргументом, к которому применяется, а не индексом, потому что тогда экспортируется только часть text.var, относящаяся к каждому работнику, а не весь объект каждому работнику.
par.test <- function(text.var, gc.rate=10){
require(parallel)
pos <- function(i) {
paste(sapply(strsplit(tolower(i), " "), nchar), collapse=" | ")
}
cl <- makeCluster(mc <- getOption("cl.cores", 4))
parLapply(cl, text.var, function(text.vari, gc.rate, pos) {
x <- pos(text.vari)
if (i%%gc.rate==0) gc()
x
}, gc.rate, pos)
}
Это также концептуально приятно. (Редко необходимо явно вызывать сборщик мусора).
Управление памятью при использовании source()
скрипта вызывает дополнительные проблемы. сравнить
> stop("oops")
Error: oops
> traceback()
1: stop("oops")
с тем же вызовом в скрипте
> source("foo.R")
Error in eval(ei, envir) : oops
> traceback()
5: stop("oops") at foo.R#1
4: eval(ei, envir)
3: eval(ei, envir)
2: withVisible(eval(ei, envir))
1: source("foo.R")
Помните, что функция R serialize()
, внутренне используемая parLapply()
для перемещения данных работникам, сериализует все вплоть до .GlobalEnv. Таким образом, объекты данных, созданные в сценарии, сериализуются рабочему, тогда как при интерактивном запуске они не будут сериализованы. Это может объяснять проблемы @SeldeomSeenSlim при запуске скрипта. Возможно, решение состоит в том, чтобы более четко отделить "данные" от "алгоритма", например, используя файловую систему или базу данных или... для хранения объектов.