Большинство вопросов о слиянии data.frame в списках на SO не совсем связаны с тем, что я пытаюсь получить здесь, но не стесняйтесь доказать, что я ошибаюсь.

У меня есть список data.frames. Я хотел бы "перевернуть" строки в другой файл data.frame by row. По сути, все первые строки формируют один data.frame, второй - второй data.frame и т.д. Результатом будет список той же длины, что и количество строк в исходных файлах данных. Пока что data.frames идентичны по размеру.

Вот некоторые данные, которые можно использовать с помощью.

Вот то, что я придумал для хорошего цикла ol. for.

Можно ли это улучшить с помощью векторизации без большого мозгового штурма? Конечно, правильный ответ будет содержать фрагмент кода. "Да" в качестве ответа не учитывается.

Я сделал свой список более крупным с большим количеством строк на data.frame. Я сравнивал результаты, которые выглядят следующим образом:

Ответы

Ответ 1

Попробуйте следующее:

bind.ith.rows <- function(i) do.call(rbind, lapply(sample.list, "[", i, TRUE))
nr <- nrow(sample.list[[1]])
lapply(1:nr, bind.ith.rows)

Ответ 2

Несколько решений, которые сделают это быстрее, используя data.table

РЕДАКТИРОВАТЬ - с более крупным набором данных, показывающим еще data.table удивительность.

# here are some sample data 
sample.list <- replicate(10000, data.frame(x = sample(1:100, 10), 
  y = sample(1:100, 10), capt = sample(0:1, 10, replace = TRUE)), simplify = F)

Быстрое решение Gabor:

# Solution Gabor
bind.ith.rows <- function(i) do.call(rbind, lapply(sample.list, "[", i, TRUE))
nr <- nrow(sample.list[[1]])
system.time(rowbound <- lapply(1:nr, bind.ith.rows))

##    user  system elapsed 
##   25.87    0.01   25.92

Функция data.table rbindlist сделает это еще быстрее даже при работе с data.frames)

library(data.table)
fastbind.ith.rows <- function(i) rbindlist(lapply(sample.list, "[", i, TRUE))
system.time(fastbound <- lapply(1:nr, fastbind.ith.rows))

##    user  system elapsed 
##   13.89    0.00   13.89

A `data.table` решение

Вот решение, которое использует data.tables - это решение split на стероидах.

# data.table solution
system.time({
    # change each element of sample.list to a data.table (and data.frame) this
    # is done instaneously by reference
    invisible(lapply(sample.list, setattr, name = "class", 
               value = c("data.table",  "data.frame")))
    # combine into a big data set
    bigdata <- rbindlist(sample.list)
    # add a row index column (by refere3nce)
    index <- as.character(seq_len(nr))
    bigdata[, `:=`(rowid, index)]
    # set the key for binary searches
    setkey(bigdata, rowid)
    # split on this -
    dt_list <- lapply(index, function(i, j, x) x[i = J(i)], x = bigdata)
    # if you want to drop the `row id` column
    invisible(lapply(dt_list, function(x) set(x, j = "rowid", value = NULL)))
    # if you really don't want them to be data.tables run this line
    # invisible(lapply(dt_list, setattr,name = 'class', value =
    # c('data.frame')))
})
################################
##    user  system elapsed    ##
##    0.08    0.00    0.08    ##
################################

Как здорово data.table!

Предостережение пользователя с `rbindlist`

rbindlist работает быстро, потому что не выполняет проверку того, что do.call(rbind,....) будет. Например, предполагается, что все столбцы факторов имеют те же уровни, что и в первом элементе списка.

Ответ 3

Здесь моя попытка с plyr, но мне нравится подход Г. Гротендика:

library(plyr)
alply(do.call("cbind",sample.list), 1, .fun=matrix,
        ncol=ncol(sample.list[[1]]), byrow=TRUE,
        dimnames=list(1:length(sample.list),
        names(sample.list[[1]])
      ))

Быстрое векторное слияние списка data.frames по строке