Ответ 1
Нам необходимо охватить, по крайней мере, следующие аспекты, чтобы предоставить исчерпывающий ответ/сравнение (без особой важности): Speed
, Memory usage
, Syntax
и Features
.
Мое намерение состоит в том, чтобы охватить каждый из них как можно более четко с точки зрения таблицы данных.
Примечание: если явно не указано иное, обращаясь к dplyr, мы ссылаемся на интерфейс dplyr data.frame, внутреннее содержимое которого находится в C++ с использованием Rcpp.
Синтаксис data.table согласован в своей форме - DT[i, j, by]
. Чтобы i
, j
и by
вместе дизайном. Объединяя связанные операции, он позволяет легко оптимизировать операции для скорости и, что более важно, использования памяти, а также предоставляет некоторые мощные функции, сохраняя при этом согласованность синтаксиса.
1. Скорость
К вопросу о том, что data.table становится быстрее, чем dplyr, было добавлено довольно много тестов (хотя в основном по групповым операциям), поскольку число групп и/или строк, которые нужно сгруппировать, увеличивается, включая тесты Matt по группировке от 10 миллионов до 2 миллиарда строк (100 ГБ в ОЗУ) на 100 - 10 миллионов групп и различные столбцы группировки, которые также сравнивают pandas
. Смотрите также обновленные тесты, которые включают Spark
и pydatatable
.
В тестах было бы замечательно охватить и эти оставшиеся аспекты:
-
Группировка операций, включающая подмножество строк - т.е. операции типа
DT[x > val, sum(y), by = z]
. -
Оцените другие операции, такие как обновление и присоединения.
-
Кроме того, тест памяти для каждой операции в дополнение к времени выполнения.
2. Использование памяти
-
Операции, включающие
filter()
илиslice()
в dplyr, могут быть неэффективными в памяти (как для data.frames, так и для data.tables). Смотрите этот пост.Обратите внимание, что комментарий Хэдли говорит о скорости (что dplyr для него достаточно быстр), в то время как основной проблемой здесь является память.
-
Интерфейс data.table в данный момент позволяет изменять/обновлять столбцы по ссылке (обратите внимание, что нам не нужно повторно присваивать результат обратно переменной).
# sub-assign by reference, updates 'y' in-place DT[x >= 1L, y := NA]
Но dplyr никогда не будет обновляться по ссылке. Эквивалент dplyr будет (обратите внимание, что результат должен быть переназначен):
# copies the entire 'y' column ans <- DF %>% mutate(y = replace(y, which(x >= 1L), NA))
Забота об этом - ссылочная прозрачность. Обновление объекта data.table по ссылке, особенно внутри функции, не всегда желательно. Но это невероятно полезная особенность: см. Этот и этот пост для интересных случаев. И мы хотим сохранить это.
Поэтому мы работаем над экспортом функции
shallow()
в data.table, которая предоставит пользователю обе возможности. Например, если желательно не изменять входной data.table внутри функции, можно сделать следующее:foo <- function(DT) { DT = shallow(DT) ## shallow copy DT DT[, newcol := 1L] ## does not affect the original DT DT[x > 2L, newcol := 2L] ## no need to copy (internally), as this column exists only in shallow copied DT DT[x > 2L, x := 3L] ## have to copy (like base R / dplyr does always); otherwise original DT will ## also get modified. }
Если не использовать
shallow()
, старая функциональность сохраняется:bar <- function(DT) { DT[, newcol := 1L] ## old behaviour, original DT gets updated by reference DT[x > 2L, x := 3L] ## old behaviour, update column x in original DT. }
Создавая поверхностную копию с помощью
shallow()
, мы понимаем, что вы не хотите изменять исходный объект. Мы заботимся обо всем внутренне, чтобы гарантировать, что при копировании столбцов вы изменяете только тогда, когда это абсолютно необходимо. Когда это реализовано, это должно полностью решить проблему прозрачности ссылок, предоставляя пользователю обе возможности.Кроме того, после экспорта
shallow()
интерфейс dplyr data.table должен избегать почти всех копий. Так что те, кто предпочитает синтаксис dplyr, могут использовать его с data.tables.Но ему все еще не хватает многих функций, которые предоставляет data.table, включая (sub) -assignment по ссылке.
-
Агрегировать при присоединении:
Предположим, у вас есть две таблицы данных:
DT1 = data.table(x=c(1,1,1,1,2,2,2,2), y=c("a", "a", "b", "b"), z=1:8, key=c("x", "y")) # x y z # 1: 1 a 1 # 2: 1 a 2 # 3: 1 b 3 # 4: 1 b 4 # 5: 2 a 5 # 6: 2 a 6 # 7: 2 b 7 # 8: 2 b 8 DT2 = data.table(x=1:2, y=c("a", "b"), mul=4:3, key=c("x", "y")) # x y mul # 1: 1 a 4 # 2: 2 b 3
И вы хотели бы получить
sum(z) * mul
для каждой строки вDT2
при объединении по столбцамx,y
. Мы можем либо:-
1) объединить
DT1
для полученияsum(z)
, 2) выполнить объединение и 3) умножить (или)# data.table way DT1[, .(z = sum(z)), keyby = .(x,y)][DT2][, z := z*mul][] # dplyr equivalent DF1 %>% group_by(x, y) %>% summarise(z = sum(z)) %>% right_join(DF2) %>% mutate(z = z * mul)
-
2) сделать все за один раз (используя функцию
by =.EACHI
):DT1[DT2, list(z=sum(z) * mul), by = .EACHI]
В чем преимущество?
-
Нам не нужно выделять память для промежуточного результата.
-
Нам не нужно группировать/хэшировать дважды (один для агрегации, другой для объединения).
-
И что еще более важно, операция, которую мы хотели выполнить, ясна, посмотрев на
j
в (2).
Проверьте этот пост для подробного объяснения
by =.EACHI
. Промежуточные результаты не материализуются, и объединение + агрегат выполняется за один раз.Посмотрите на это, это и это сообщения для реальных сценариев использования.
В
dplyr
вам придется сначала объединять и агрегировать или агрегировать, а затем объединять, но ни один из них не является настолько эффективным с точки зрения памяти (что, в свою очередь, приводит к скорости). -
-
Обновление и присоединения:
Рассмотрим код data.table, показанный ниже:
DT1[DT2, col := i.mul]
добавляет/обновляет
DT1
столбецcol
сmul
изDT2
на тех строках, гдеDT2
ключевого столбца спичекDT1
. Я не думаю, что вdplyr
есть точный эквивалент этой операции, то есть, не избегая операции*_join
, которая должна была бы копировать весьDT1
только для того, чтобы добавить в него новый столбец, что не нужно.Проверьте этот пост для реального сценария использования.
Подводя итог, важно понимать, что каждый бит оптимизации имеет значение. Как сказала бы Грейс Хоппер, следите за своими наносекундами !
3. Синтаксис
Давай теперь посмотрим на синтаксис. Хэдли прокомментировал здесь:
Таблицы данных чрезвычайно быстры, но я думаю, что их краткость усложняет изучение, а код, который использует их, труднее читать после того, как вы их написали...
Я считаю это замечание бессмысленным, потому что оно очень субъективно. Возможно, мы можем попытаться противопоставить последовательность в синтаксисе. Мы будем сравнивать синтаксис data.table и dplyr бок о бок.
Мы будем работать с фиктивными данными, показанными ниже:
DT = data.table(x=1:10, y=11:20, z=rep(1:2, each=5))
DF = as.data.frame(DT)
-
Основные операции агрегации/обновления.
# case (a) DT[, sum(y), by = z] ## data.table syntax DF %>% group_by(z) %>% summarise(sum(y)) ## dplyr syntax DT[, y := cumsum(y), by = z] ans <- DF %>% group_by(z) %>% mutate(y = cumsum(y)) # case (b) DT[x > 2, sum(y), by = z] DF %>% filter(x>2) %>% group_by(z) %>% summarise(sum(y)) DT[x > 2, y := cumsum(y), by = z] ans <- DF %>% group_by(z) %>% mutate(y = replace(y, which(x > 2), cumsum(y))) # case (c) DT[, if(any(x > 5L)) y[1L]-y[2L] else y[2L], by = z] DF %>% group_by(z) %>% summarise(if (any(x > 5L)) y[1L] - y[2L] else y[2L]) DT[, if(any(x > 5L)) y[1L] - y[2L], by = z] DF %>% group_by(z) %>% filter(any(x > 5L)) %>% summarise(y[1L] - y[2L])
-
Синтаксис data.table компактен и довольно многословен. Вещи более или менее эквивалентны в случае (а).
-
В случае (b) мы должны были использовать
filter()
в dplyr при суммировании. Но при обновлении нам пришлось переместить логику вmutate()
. Однако в data.table мы выражаем обе операции с одной и той же логикой - работаем со строками, гдеx > 2
, но в первом случае получаемsum(y)
, тогда как во втором случае обновляем эти строки дляy
с его накопленной суммой.Это то, что мы имеем в виду, когда говорим, что форма
DT[i, j, by]
непротиворечива. -
Аналогично в случае (c), когда у нас есть условие
if-else
, мы можем выразить логику "как есть" как в data.table, так и в dplyr. Однако, если мы хотим вернуть только те строки, в которых выполняется условиеif
и пропустить иначе, мы не можем напрямую использовать summazesummarise()
(AFAICT). Сначала мы должны выполнитьfilter()
а затем суммировать, потому чтоsummarise()
всегда ожидает одно значение.Хотя он возвращает тот же результат, использование
filter()
делает реальную операцию менее очевидной.Вполне возможно, что будет возможно использовать
filter()
в первом случае (мне это не кажется очевидным), но я хочу сказать, что мы не должны этого делать.
-
-
Агрегирование/обновление по нескольким столбцам
# case (a) DT[, lapply(.SD, sum), by = z] ## data.table syntax DF %>% group_by(z) %>% summarise_each(funs(sum)) ## dplyr syntax DT[, (cols) := lapply(.SD, sum), by = z] ans <- DF %>% group_by(z) %>% mutate_each(funs(sum)) # case (b) DT[, c(lapply(.SD, sum), lapply(.SD, mean)), by = z] DF %>% group_by(z) %>% summarise_each(funs(sum, mean)) # case (c) DT[, c(.N, lapply(.SD, sum)), by = z] DF %>% group_by(z) %>% summarise_each(funs(n(), mean))
-
В случае (а) коды более или менее эквивалентны. data.table использует знакомую базовую функцию
lapply()
, тогда какdplyr
вводит*_each()
вместе с*_each()
функций дляfuns()
. -
data.table
:=
требует предоставления имен столбцов, тогда как dplyr генерирует их автоматически. -
В случае (b) синтаксис dplyr относительно прост. Улучшение агрегации/обновления для нескольких функций находится в списке data.table.
-
Однако в случае (c) dplyr будет возвращать
n()
столько раз, сколько столбцов, а не только один раз. В data.table все, что нам нужно сделать, это вернуть список вj
. Каждый элемент списка станет столбцом в результате. Итак, мы можем снова использовать знакомую базовую функциюc()
для объединения.N
вlist
который возвращаетlist
.
Примечание: еще раз, в data.table все, что нам нужно сделать, это вернуть список в
j
. Каждый элемент списка станет столбцом в результате. Для этого вы можете использовать базовые функцииc()
,as.list()
,lapply()
,list()
т.д., Не прибегая к изучению каких-либо новых функций.Вам нужно будет узнать только специальные переменные -
.N
и.SD
по крайней мере. Эквивалентом в dplyr являютсяn()
и.
-
-
присоединяется
dplyr предоставляет отдельные функции для каждого типа объединения, где data.table позволяет выполнять соединения с использованием того же синтаксиса
DT[i, j, by]
(и с указанием причины). Он также предоставляет эквивалентнуюmerge.data.table()
в качестве альтернативы.setkey(DT1, x, y) # 1. normal join DT1[DT2] ## data.table syntax left_join(DT2, DT1) ## dplyr syntax # 2. select columns while join DT1[DT2, .(z, i.mul)] left_join(select(DT2, x, y, mul), select(DT1, x, y, z)) # 3. aggregate while join DT1[DT2, .(sum(z) * i.mul), by = .EACHI] DF1 %>% group_by(x, y) %>% summarise(z = sum(z)) %>% inner_join(DF2) %>% mutate(z = z*mul) %>% select(-mul) # 4. update while join DT1[DT2, z := cumsum(z) * i.mul, by = .EACHI] ?? # 5. rolling join DT1[DT2, roll = -Inf] ?? # 6. other arguments to control output DT1[DT2, mult = "first"] ??
-
Некоторые могут найти отдельную функцию для каждого объединения гораздо лучше (левый, правый, внутренний, анти, полу и т.д.), Тогда как другим может понравиться data.table
DT[i, j, by]
илиmerge()
которая похожа на base Р. -
Однако соединения dplyr делают именно это. Ничего более. Не меньше.
-
data.tables может выбирать столбцы при присоединении (2), и в dplyr вам нужно сначала
select()
на обоих data.frames, прежде чем присоединиться, как показано выше. В противном случае вы бы материализовали объединение ненужными столбцами, чтобы потом удалить их, а это неэффективно. -
data.tables может объединяться при присоединении (3), а также обновляться при присоединении (4), используя функцию
by =.EACHI
. Зачем использовать весь результат объединения, чтобы добавить/обновить всего несколько столбцов? -
data.table может катить соединения (5) - крен вперед, LOCF, крен назад, NOCB, ближайший.
-
data.table также имеет аргумент mult
mult =
который выбирает первое, последнее или все совпадения (6). -
data.table имеет аргумент
allow.cartesian = TRUE
для защиты от случайных недопустимых объединений.
-
Еще раз, синтаксис согласуется с
DT[i, j, by]
с дополнительными аргументами, позволяющими дополнительно контролировать вывод.
-
do()
...dplyr summaze специально разработан для функций, которые возвращают одно значение. Если ваша функция возвращает несколько/неравных значений, вам придется прибегнуть к
do()
. Вы должны знать заранее обо всех возвращаемых значениях ваших функций.DT[, list(x[1], y[1]), by = z] ## data.table syntax DF %>% group_by(z) %>% summarise(x[1], y[1]) ## dplyr syntax DT[, list(x[1:2], y[1]), by = z] DF %>% group_by(z) %>% do(data.frame(.$x[1:2], .$y[1])) DT[, quantile(x, 0.25), by = z] DF %>% group_by(z) %>% summarise(quantile(x, 0.25)) DT[, quantile(x, c(0.25, 0.75)), by = z] DF %>% group_by(z) %>% do(data.frame(quantile(.$x, c(0.25, 0.75)))) DT[, as.list(summary(x)), by = z] DF %>% group_by(z) %>% do(data.frame(as.list(summary(.$x))))
-
.SD
эквивалент.
-
В data.table вы можете выбросить почти все что угодно в
j
- единственное, что нужно запомнить, это вернуть список, чтобы каждый элемент списка был преобразован в столбец. -
В dplyr не может этого сделать. Приходится прибегать к
do()
зависимости от того, насколько вы уверены в том, будет ли ваша функция всегда возвращать одно значение. И это довольно медленно.
-
Еще раз, синтаксис data.table согласуется с
DT[i, j, by]
. Мы можем просто продолжать бросать выражения вj
не беспокоясь об этом.
Посмотрите на этот ТАК вопрос и этот. Интересно, можно ли выразить ответ как простой, используя синтаксис dplyr...
Подводя итог, я особо выделил несколько случаев, когда синтаксис dplyr либо неэффективен, ограничен или не позволяет выполнять операции напрямую. Это связано, в частности, с тем, что data.table получает некоторую негативную реакцию по поводу синтаксиса "сложнее читать/изучать" (как тот, который вставлен/связан выше). Большинство постов, которые охватывают dplyr, говорят о самых простых операциях. И это здорово. Но важно понимать и его синтаксис, и функциональные ограничения, и мне еще предстоит увидеть сообщение об этом.
У data.table также есть свои причуды (некоторые из которых я указал, что мы пытаемся исправить). Мы также пытаемся улучшить соединения data.table, как я уже отмечал здесь.
Но следует также учитывать количество функций, которые отсутствуют в dplyr по сравнению с таблицей данных.
4. Особенности
Я указал на большинство функций здесь, а также в этом посте. К тому же:
-
fread - быстрый файловый ридер уже давно доступен.
-
fwrite - теперь доступен параллельный быстрый файловый редактор. См. Этот пост для подробного объяснения реализации и № 1664 для отслеживания дальнейших событий.
-
Автоматическая индексация - еще одна удобная функция для оптимизации базового синтаксиса R как таковая.
-
Специальная группировка:
dplyr
автоматически сортирует результаты, группируя переменные во времяdplyr
summarise()
, что может быть не всегда желательно. -
Многочисленные преимущества в соединениях data.table (для скорости/эффективности памяти и синтаксиса), упомянутые выше.
-
Неэквивалентные объединения: Позволяет объединениям использовать другие операторы
<=, <, >, >=
вместе со всеми другими преимуществами соединений data.table. -
Перекрывающиеся объединения диапазонов были недавно реализованы в data.table. Проверьте этот пост для обзора с тестами.
-
setorder()
в data.table, которая позволяет действительно быстро переупорядочивать data.tables по ссылке. -
dplyr предоставляет интерфейс для баз данных, используя тот же синтаксис, который в настоящее время отсутствует в data.table.
-
data.table
предоставляет более быстрые эквиваленты операций над множествами (написанные Яном Горецки) -fsetdiff
,fintersect
,funion
иfsetequal
с дополнительным аргументомall
(как в SQL). -
data.table загружается чисто без предупреждений о маскировании и имеет механизм, описанный здесь для совместимости
[.data.frame
при передаче в любой пакет R. dplyr изменяет базовые функцииfilter
,lag
и[
что может вызвать проблемы; например, здесь и здесь.
В заключение:
-
В отношении баз данных - нет причин, по которым data.table не может предоставить аналогичный интерфейс, но сейчас это не является приоритетом. Это может быть усилено, если пользователям очень понравится эта функция... не уверен.
-
На параллелизме - все сложно, пока кто-то не пойдет и не сделает это. Конечно, это потребует усилий (будучи потокобезопасным).
- В настоящее время достигнут прогресс (в версии v1.9.7) в направлении распараллеливания известных трудоемких частей для увеличения производительности с использованием
OpenMP
.
- В настоящее время достигнут прогресс (в версии v1.9.7) в направлении распараллеливания известных трудоемких частей для увеличения производительности с использованием