Ускорение обработки больших кадров данных в R

Я пытался реализовать алгоритм, недавно предложенный в этой статье. Учитывая большой объем текста (корпус), алгоритм должен возвращать характерные n-граммы (т.е. Последовательность из n слов) корпуса. Пользователь может решить соответствующее n, и в данный момент я пытаюсь с n = 2-6, как в оригинальной бумаге. Другими словами, используя алгоритм, я хочу извлечь от 2 до 6 грамм, которые характеризуют корпус.

Я смог реализовать часть, которая вычисляет оценку, на основе которой идентифицируются определенные n-граммы, но пыталась устранить нехарактерные.

Данные

У меня есть список под названием token.df, который содержит пять фреймов данных, включая все n-граммы, которые появляются в корпусе. Каждый кадр данных соответствует каждому n в n-граммах. Например, token.df[[2]] включает все биграммы (2 грамма) и их баллы (называемые ми ниже) в алфавитном порядке.

Здесь bigram 0 0 (хотя они и не совсем такие слова) имеет оценку 2.076421. Поскольку кадры данных включают все n-граммы, которые появляются в корпусе, каждый из них имеет более одного миллиона строк.

Task

Я хочу определить, какие n-граммы сохранить и какие из них отбрасывать. Для этой цели алгоритм делает следующее.

Пример

Здесь bigram 0 001 не сохраняется, потому что одна из триграмм, чьи первые два слова совпадают с bigram (собака 0 001), имеет более высокий балл, чем bigram (11.002312 > 10.56292). Собака триграммы 0 001 сохраняется, потому что ее оценка (11.002312) выше, чем у биграма, которая соответствует первым двум словам триграммы (0 001; score = 10.56292), а ее значение - 4 грамма, первые три слова которого соответствуют триграмма (0 001 собачьего ходока, оценка = 10.916028).

Проблема и неудачные попытки

То, что я хотел бы знать, - это эффективный способ достижения вышеуказанного. Чтобы определить, какие биграммы для сохранения, например, мне нужно выяснить для каждой строки token.df[[2]], строки которой в token.df[[3]] имеют первые два слова, идентичные значению bigram. Однако, так как число строк велико, моя итерация под ним занимает слишком много времени для запуска. Они фокусируются на случае с битрамами, потому что задача выглядела проще, чем в случае с 3-5 граммами.

Есть ли способ выполнить эту задачу за разумные промежутки времени (например, за одну ночь)? Теперь, когда итерационные подходы были напрасны, мне интересно, возможна ли какая-либо векторизация. Но я открыт для любых способов ускорить процесс.

Данные имеют древовидную структуру в том, что один биграм делится на одну или несколько триграмм, каждая из которых, в свою очередь, делится на один или более 4-граммов и т.д. Я не уверен, как лучше обрабатывать такие данные.

Воспроизводимый пример

Я подумал о том, чтобы раскрыть часть реальных данных, которые я использую, но сокращение данных разрушает всю суть проблемы. Я предполагаю, что люди не хотят загружать весь набор данных 250 МБ только для этого, и я не имею права на его загрузку. Ниже представлен случайный набор данных, который все еще меньше, чем я использую, но помогает справиться с этой проблемой. С помощью приведенного выше кода (подход указателя) он занимает мой компьютер 4-5 секунд для обработки первых 100 строк token.df[[2]] ниже, и он, по-видимому, занимает 12 часов, чтобы обработать все битрамы.

Любые идеи по ускорению кода высоко ценятся.

Ответы

Ответ 1

Ниже на моей машине прогоняется менее 7 секунд для всех биграмм:

library(dplyr)
res <- inner_join(token.df[[2]],token.df[[3]],by = c('w1','w2'))
res <- group_by(res,w1,w2)
bigrams <- filter(summarise(res,keep = all(mi.y < mi.x)),keep)

Здесь нет ничего особенного в dplyr. Не менее быстрое (или более быстрое) решение можно было бы сделать с помощью data.table или непосредственно в SQL. Вам просто нужно переключиться на использование объединений (как в SQL), а не повторять все через все. На самом деле я не удивлюсь, если просто использовать merge в базе R, а затем aggregate не будет на порядок быстрее, чем то, что вы сейчас делаете. (Но вы действительно должны делать это с помощью data.table, dplyr или непосредственно в базе данных SQL).

В самом деле, это:

library(data.table)
dt2 <- setkey(data.table(token.df[[2]]),w1,w2)
dt3 <- setkey(data.table(token.df[[3]]),w1,w2)
dt_tmp <- dt3[dt2,allow.cartesian = TRUE][,list(k = all(mi < mi.1)),by = c('w1','w2')][(k)]

еще быстрее (~ 2x). Я даже не уверен, что я сжимал всю скорость, которую мог бы получить из любого пакета, если честно.

(отредактировать от Rick. Попытка как комментарий, но синтаксис перепутался)
Если используется data.table, это должно быть еще быстрее, поскольку data.table имеет функцию by-without-by (см. ?data.table для получения дополнительной информации):

 dt_tmp <- dt3[dt2,list(k = all(mi < i.mi)), allow.cartesian = TRUE][(k)]

Обратите внимание, что при объединении data.tables вы можете предикатировать имена столбцов с помощью i., чтобы указать использование столбца из таблицы data.table в аргументе i=.