Применение функции к каждой строке таблицы данных.

Я ищу способ эффективного применения функции к каждой строке data.table. Рассмотрим следующую таблицу данных:

library(data.table)
library(stringr)

x <- data.table(a = c(1:3, 1), b = c('12 13', '14 15', '16 17', '18 19'))
> x
   a     b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19

Скажем, я хочу разбить каждый элемент столбца b на пробел (таким образом, получив две строки для каждой строки в исходных данных) и соединить полученные таблицы данных. В приведенном выше примере мне нужен следующий результат:

Следующее будет работать, если столбец a имеет только уникальные значения:

x[, list(str_split(b, ' ')[[1]]), by = a]

Следующие почти работают (если в исходной таблице данных нет одинаковых строк), но уродливо, когда x имеет много столбцов и копирует столбец b в результат, чего я бы хотел избежать.

>     x[, list(str_split(b, ' ')[[1]]), by = list(a,b)]
   a     b V1
1: 1 12 13 12
2: 1 12 13 13
3: 2 14 15 14
4: 2 14 15 15
5: 3 16 17 16
6: 3 16 17 17
7: 1 18 19 18
8: 1 18 19 19

Каким будет самый эффективный и идиоматический способ решения этой проблемы?

Ответы

Ответ 1

Как насчет:

x
   a     b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19

x[,list(a=rep(a,each=2), V1=unlist(strsplit(b," ")))]
   a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19

Обобщенное решение, данное комментарий:

x[,{s=strsplit(b," ");list(a=rep(a,sapply(s,length)), V1=unlist(s))}]

Ответ 2

Один из вариантов - добавить номер строки

x[, r := 1:nrow(x)]

а затем группу r:

x[, list(a, str_split(b, ' ')[[1]]), by = r]

Мне интересно, есть ли лучшие решения?

Ответ 3

Самый эффективный и идиоматический подход - иметь векторизованную функцию.

В этом случае какой-то regex сделает то, что вы хотите

 x[, V1 := gsub(" [[:alnum:]]*", "", b)]

   a     b V1
1: 1 12 13 12
2: 2 14 15 14
3: 3 16 17 16
4: 1 18 19 18

Если вы хотите вернуть каждый компонент split, и вы знаете, что в каждом из них есть по два, вы можете использовать Map для принудительного результата результата strsplit в правильной форме

x[, c('b1','b2')  := do.call(Map, c(f = c, strsplit(b, ' ')))]



x
   a     b b1 b2
1: 1 12 13 12 13
2: 2 14 15 14 15
3: 3 16 17 16 17
4: 1 18 19 18 19

Ответ 4

x[, .(a,strsplit(b,' ')), by = .I]

выглядит более эстетичным

Ответ 5

Подход dplyr/tidyr также работает с таблицами данных.

library(dplyr)
library(tidyr)
x %>% 
  separate(b, into = c("b1", "b2")) %>% 
  gather(b, "V1", b1:b2) %>%
  arrange(V1) %>%
  select(a, V1)

Или, используя стандартные формы оценки:

x %>% 
  separate_("b", into = c("b1", "b2")) %>% 
  gather_("b", "V1", c("b1", "b2")) %>%
  arrange_(~ V1) %>%
  select_(~ a, ~ V1)

Случай с разными значениями в столбце b немного сложнее.

library(stringr)

x2 <- data.table(
  a = c(1:3, 1), 
  b = c('12 13', '14', '15 16 17', '18 19')
)

n <- max(str_count(x2$b, " ")) + 1
b_cols <- paste0("b", seq_len(n))
x2 %>% 
  separate_("b", into = b_cols, extra = "drop") %>% 
  gather_("b", "V1", b_cols) %>%
  arrange_(~ V1) %>%
  select_(~ a, ~ V1)

Ответ 6

x[, .(a,strsplit(b,' ')), by=1:nrow(x)]

by=nrow(x) - простой способ заставить 1 строку для каждой группы

Ответ 7

Рассматривая ввод и желаемый результат, это должно работать -

x <- data.frame(a=c(1,2,3,1),b=c("12 13","14 15","16 17","18 19"))
data.frame(a=rep(x$a,each=2), new_b=unlist(strsplit(as.character(x$b)," ")))