Почему `unlist (lapply)` быстрее, чем `sapply`?

Ответ 1

В дополнение к запуску lapply, sapply запускает simplify2array, чтобы попытаться установить выход в массив. Чтобы выяснить, возможно ли это, функция должна проверить, имеют ли все отдельные выходы одинаковые длины: это делается с помощью дорогостоящего unique(lapply(..., length)), который учитывает большую часть разницы во времени, которую вы видели:

b <- lapply(JSON, "[[", "a")

microbenchmark(lapply(JSON, "[[", "a"),
               unlist(b),
               unique(lapply(b, length)),
               sapply(JSON, "[[", "a"),
               sapply(JSON, "[[", "a", simplify = FALSE),
               unlist(lapply(JSON, "[[", "a"))
)

# Unit: microseconds
#                                       expr       min        lq   median        uq       max neval
#                    lapply(JSON, "[[", "a") 14809.151 15384.358 15774.26 16905.226 24944.863   100
#                                  unlist(b)   920.047  1043.719  1158.62  1223.091  8056.231   100
#                  unique(lapply(b, length)) 10778.065 11060.452 11456.11 12581.414 19717.740   100
#                    sapply(JSON, "[[", "a") 24827.206 25685.535 26656.88 30519.556 93195.751   100
#  sapply(JSON, "[[", "a", simplify = FALSE) 14283.541 14922.780 15526.42 16654.058 26865.022   100
#            unlist(lapply(JSON, "[[", "a")) 15334.026 16133.146 16607.12 18476.182 30080.544   100

Ответ 2

Как показалось droopy, и Роланд указал, sapply - это оберточная функция для lapply, предназначенная для удобного использования. sapply использует simplify2array, который медленнее, чем unlist:

> microbenchmark(unlist(as.list(1:1000)), simplify2array(as.list(1:1000)), times=1000)
Unit: microseconds
                            expr     min       lq  median       uq      max neval
         unlist(as.list(1:1000))  99.734 109.0230 113.912 118.3120 21343.92  1000
 simplify2array(as.list(1:1000)) 892.712 931.0895 947.957 976.3125 22241.52  1000

Кроме того, при возврате матрицы sapply работает медленнее, чем с другими базовыми функциями, например:

a <- list(c(1,2,3,4), c(1,2,3,4), c(1,2,3,4))
microbenchmark(t(do.call(rbind, lapply(a, function(x)x))), sapply(a, function(x)x))
Unit: microseconds
                                        expr    min     lq median     uq     max neval
 t(do.call(rbind, lapply(a, function(x) x))) 29.823 30.801 32.512 33.734  94.845   100
                    sapply(a, function(x) x) 57.201 58.179 59.156 60.134 111.956   100

Но особенно во втором случае sapply гораздо проще в использовании.

Почему `unlist (lapply)` быстрее, чем `sapply`?

Ответы

Ответ 1

Ответ 2