Почему функция diag так медленно? [в R 3.2.0 или ранее]

Я смотрел тесты в этом ответе и хотел сравнить их с diag (используется в другом ответе). К сожалению, кажется, что diag занимает возраст:

Комментарии: Я тестировал их с помощью identical. Я взял "cond" из одного из ответов на этот вопрос о домашнем задании. Результаты аналогичны матрице целых чисел 1:26 вместо letters.

Это просто операция подмножества матриц, поэтому я не знаю, почему так много накладных расходов. Заглянув внутрь функции, я вижу несколько проверок, а затем c(m)[v], где v - это тот же вектор, который используется в тесте "vec". Сроки этих двух...

... кажется, я нашел своего преступника. Итак, новая вариация моего вопроса такова: Почему существует, по-видимому, ненужное и очень трудоемкое c в diag?

Ответы

Ответ 1

Резюме

От R версии 3.2.1 (всемирно известный астронавт) diag() получил обновление. Обсуждение переместилось в r-devel, где было отмечено, что c() разделяет атрибуты, отличные от имени, и, возможно, именно поэтому он был помещен туда. В то время как некоторые люди опасались, что удаление c() приведет к неизвестным проблемам на матричных объектах, Питер Дальгаард обнаружил, что "Единственный случай, когда эффект c() внутри diag() имеет значение, - это где M[i,j] != M[(i-1)*m+j] AND c(M) stringize M в порядке столбца, так что M[i,j] == c(M)[(i-1)*m+j]."

Люк Тирни проверил удаление @Frank c(), обнаружив, что это ничего не повлияло на CRAN или BIOC и поэтому было реализовано, чтобы заменить c (x) [...] на x [...] на строка 27. Это приводит к относительно большим ускорениям в diag(). Ниже приведен тест скорости, показывающий улучшение с версией R 3.2.1 diag().

library(microbenchmark)
nc  <- 1e4
set.seed(1)
m <- matrix(sample(letters,nc^2,replace=TRUE), ncol = nc)

    microbenchmark(diagOld(m),diag(m))
    Unit: microseconds
           expr        min          lq        mean      median         uq        max neval
     diagOld(m) 451189.242 526622.2775 545116.5668 531905.5635 540008.704 682223.733   100
        diag(m)    222.563    646.8675    644.7444    714.4575    740.701   1015.459   100