Как преобразовать список, состоящий из вектора разной длины в полезный кадр данных в R?
У меня есть (довольно длинный) список векторов. Векторы состоят из русских слов, которые я получил с помощью функции strsplit()
в предложениях.
Ниже показано, что возвращает head()
:
[[1]]
[1] "модно" "создавать" "резюме" "в" "виде"
[[2]]
[1] "ты" "начианешь" "работать" "с" "этими"
[[3]]
[1] "модно" "называть" "блогер-рилейшенз" "―" "начинается" "задолго"
[[4]]
[1] "видел" "по" "сыну," "что" "он"
[[5]]
[1] "четырнадцать," "я" "поселился" "на" "улице"
[[6]]
[1] "широко" "продолжали" "род."
Обратите внимание, что векторы имеют разную длину.
Я хочу, чтобы я мог читать первые слова из каждого предложения, второе слово, третье и т.д.
Желаемый результат будет примерно таким:
P1 P2 P3 P4 P5 P6
[1] "модно" "создавать" "резюме" "в" "виде" NA
[2] "ты" "начианешь" "работать" "с" "этими" NA
[3] "модно" "называть" "блогер-рилейшенз" "―" "начинается" "задолго"
[4] "видел" "по" "сыну," "что" "он" NA
[5] "четырнадцать," "я" "поселился" "на" "улице" NA
[6] "широко" "продолжали" "род." NA NA NA
Я попытался просто использовать data.frame()
, но это не сработало, потому что строки имеют разную длину. Я также пробовал rbind.fill()
из пакета plyr
, но эта функция может обрабатывать только матрицы.
Здесь я нашел несколько других вопросов (что я получил с помощью справки plyr
), но все они касались объединения, например, двух фреймов данных разного размера.
Спасибо за вашу помощь.
Ответы
Ответ 1
попробуйте следующее:
word.list <- list(letters[1:4], letters[1:5], letters[1:2], letters[1:6])
n.obs <- sapply(word.list, length)
seq.max <- seq_len(max(n.obs))
mat <- t(sapply(word.list, "[", i = seq.max))
трюк заключается в том, что
c(1:2)[1:4]
возвращает вектор + два NAs
Ответ 2
Один вкладыш с plyr
plyr::ldply(word.list, rbind)
Ответ 3
Вы можете сделать что-то вроде этого:
## Example data
l <- list(c("a","b","c"), c("a2","b2"), c("a3","b3","c3","d3"))
## Compute maximum length
max.length <- max(sapply(l, length))
## Add NA values to list elements
l <- lapply(l, function(v) { c(v, rep(NA, max.length-length(v)))})
## Rbind
do.call(rbind, l)
Что дает:
[,1] [,2] [,3] [,4]
[1,] "a" "b" "c" NA
[2,] "a2" "b2" NA NA
[3,] "a3" "b3" "c3" "d3"
Ответ 4
Другим вариантом является stri_list2matrix
из library(stringi)
library(stringi)
stri_list2matrix(l, byrow=TRUE)
# [,1] [,2] [,3] [,4]
#[1,] "a" "b" "c" NA
#[2,] "a2" "b2" NA NA
#[3,] "a3" "b3" "c3" "d3"
ПРИМЕЧАНИЕ. Данные из сообщения @juba.
Или как @Valentin упомянул в комментариях
sapply(l, "length<-", max(lengths(l)))
Ответ 5
вы также можете использовать rbindlist()
из data.table-package.
Преобразование векторов в data.table или data.frame и транспонирование (не уверен, что это значительно уменьшает скорость) с помощью lapply()
. Затем rbindlist()
их с rbindlist()
- заполняя отсутствующие ячейки NA:
l = list(c("a","b","c"), c("a2","b2"), c("a3","b3","c3","d3"))
dt = rbindlist(lapply(l, function(x) data.table(t(x))),
fill = TRUE)
Ответ 6
Другим вариантом может быть определение такой функции (она бы имитировала rbind.fill
) или использовать ее непосредственно из пакета rowr
:
cbind.fill <- function(...){
nm <- list(...)
nm <- lapply(nm, as.matrix)
n <- max(sapply(nm, nrow))
do.call(cbind, lapply(nm, function (x)
rbind(x, matrix(, n-nrow(x), ncol(x)))))
}
С уважением