R - применить функцию к каждой строке data.table

Я хочу использовать data.table для повышения скорости для данной функции, но я не уверен, что реализую ее правильно:

У меня есть функция, которая находит lkpId, которая содержит как thisLocation, так и finalLocation, и имеет "ближайшее" lkpTime (т.е. минимальное неотрицательное значение thisTime - lkpTime)

Мне нужно получить lkpId для каждой строки dt. Поэтому мой первоначальный инстинкт заключался в использовании функции *apply, но она занимала слишком много времени (для меня), когда n/nrow > 1,000,000. Поэтому я попытался реализовать решение data.table, чтобы узнать, быстрее ли это:

Однако я довольно новичок в data.table, и этот метод, похоже, не дает каких-либо выигрышей в производительности над решением *apply:

Есть ли лучший способ использовать data.table для применения функции getId по каждой строке dt?

Благодаря указателю от @eddi я переработал весь свой алгоритм и использую скользящие соединения (хорошее введение), таким образом правильное использование data.table. Я напишу ответ позже.

Ответы

Ответ 1

Проведя время, задав этот вопрос в что data.table может предложить, исследование data.table объединяется благодаря @eddi указатель (например Rolling join на data.table и внутреннее соединение с неравенством), я пришел с помощью решения.

Одна из сложных частей отходила от мысли "применить функцию к каждой строке" и переработала решение для использования объединений.

И, несомненно, будут лучшие способы программирования этого, но здесь моя попытка.

## want to find a lkpId for each id, that has the minimum difference between 'thisTime' and 'lkpTime'
## and where the lkpId contains both 'thisLocation' and 'finalLocation'

## find all lookup id where 'thisLocation' matches 'lookupLocation'
## and where thisTime - lkpTime > 0
setkey(dt, thisLocation)
setkey(dt_lookup, lkpLocation)

dt_this <- dt[dt_lookup, {
  idx = thisTime - i.lkpTime > 0
  .(id = id[idx],
    lkpId = i.lkpId,
    thisTime = thisTime[idx],
    lkpTime = i.lkpTime)
},
by=.EACHI]

## remove NAs
dt_this <- dt_this[complete.cases(dt_this)]

## find all matching 'finalLocation' and 'lookupLocaiton'
setkey(dt, finalLocation)
## inner join (and only return the id columns)
dt_final <- dt[dt_lookup, nomatch=0, allow.cartesian=TRUE][,.(id, lkpId)]

## join dt_this to dt_final (as lkpId must have both 'thisLocation' and 'finalLocation')
setkey(dt_this, id, lkpId)
setkey(dt_final, id, lkpId)

dt_join <- dt_this[dt_final, nomatch=0]

## take the combination with the minimum difference between 'thisTime' and 'lkpTime'
dt_join[,timeDiff := thisTime - lkpTime]

dt_join <- dt_join[ dt_join[order(timeDiff), .I[1], by=id]$V1]  

## equivalent dplyr code
# library(dplyr)
# dt_this <- dt_this %>%
#   group_by(id) %>%
#   arrange(timeDiff) %>%
#   slice(1) %>%
#   ungroup