Более эффективные средства создания корпуса и DTM с 4-мя рядами

Мой файл имеет более 4M строк, и мне нужен более эффективный способ преобразования моих данных в матрицу тела и документа, чтобы я мог передать ее байесовскому классификатору.

Рассмотрим следующий код:

library(tm)

GetCorpus <-function(textVector)
{
  doc.corpus <- Corpus(VectorSource(textVector))
  doc.corpus <- tm_map(doc.corpus, tolower)
  doc.corpus <- tm_map(doc.corpus, removeNumbers)
  doc.corpus <- tm_map(doc.corpus, removePunctuation)
  doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("english"))
  doc.corpus <- tm_map(doc.corpus, stemDocument, "english")
  doc.corpus <- tm_map(doc.corpus, stripWhitespace)
  doc.corpus <- tm_map(doc.corpus, PlainTextDocument)
  return(doc.corpus)
}

data <- data.frame(
  c("Let the big dogs hunt","No holds barred","My child is an honor student"), stringsAsFactors = F)

corp <- GetCorpus(data[,1])

inspect(corp)

dtm <- DocumentTermMatrix(corp)

inspect(dtm)

Выход:

> inspect(corp)
<<VCorpus (documents: 3, metadata (corpus/indexed): 0/0)>>

[[1]]
<<PlainTextDocument (metadata: 7)>>
let big dogs hunt

[[2]]
<<PlainTextDocument (metadata: 7)>>
 holds bar

[[3]]
<<PlainTextDocument (metadata: 7)>>
 child honor stud
> inspect(dtm)
<<DocumentTermMatrix (documents: 3, terms: 9)>>
Non-/sparse entries: 9/18
Sparsity           : 67%
Maximal term length: 5
Weighting          : term frequency (tf)

              Terms
Docs           bar big child dogs holds honor hunt let stud
  character(0)   0   1     0    1     0     0    1   1    0
  character(0)   1   0     0    0     1     0    0   0    0
  character(0)   0   0     1    0     0     1    0   0    1

Мой вопрос:, что я могу использовать для создания корпуса и DTM быстрее? Это кажется очень медленным, если я использую более 300 тыс. Строк.

Я слышал, что могу использовать data.table, но я не уверен, как это сделать.

Я также посмотрел на пакет qdap, но при попытке загрузить пакет мне пришла ошибка, плюс я даже не знаю, будет ли это работать.

Ref. http://cran.r-project.org/web/packages/qdap/qdap.pdf

Ответы

Ответ 1

Я думаю, вы можете захотеть рассмотреть более ориентированное на регулярное выражение решение. Это некоторые из проблем/мышления, с которыми я борюсь как разработчик. В настоящее время я рассматриваю пакет stringi для разработки, так как он имеет некоторые последовательно названные функции, которые быстро становятся злодейскими для манипулирования строками.

В этом ответе я пытаюсь использовать любой инструмент, который я знаю об этом быстрее, чем более удобные методы tm могут дать нам (и, конечно, намного быстрее, чем qdap). Здесь я даже не изучал параллельную обработку или data.table/dplyr и вместо этого сосредоточился на обработке строк с помощью stringi и сохранял данные в матрице и манипулировал определенными пакетами, предназначенными для обработки этого формата. Я беру ваш пример и умножаю его на 100000x. Даже при остановке, это занимает 17 секунд на моей машине.

data <- data.frame(
    text=c("Let the big dogs hunt",
        "No holds barred",
        "My child is an honor student"
    ), stringsAsFactors = F)

## eliminate this step to work as a MWE
data <- data[rep(1:nrow(data), 100000), , drop=FALSE]

library(stringi)
library(SnowballC)
out <- stri_extract_all_words(stri_trans_tolower(SnowballC::wordStem(data[[1]], "english"))) #in old package versions it was named 'stri_extract_words'
names(out) <- paste0("doc", 1:length(out))

lev <- sort(unique(unlist(out)))
dat <- do.call(cbind, lapply(out, function(x, lev) {
    tabulate(factor(x, levels = lev, ordered = TRUE), nbins = length(lev))
}, lev = lev))
rownames(dat) <- sort(lev)

library(tm)
dat <- dat[!rownames(dat) %in% tm::stopwords("english"), ] 

library(slam)
dat2 <- slam::as.simple_triplet_matrix(dat)

tdm <- tm::as.TermDocumentMatrix(dat2, weighting=weightTf)
tdm

## or...
dtm <- tm::as.DocumentTermMatrix(dat2, weighting=weightTf)
dtm

Ответ 2

Какой подход?

data.table определенно правильный путь. Операции с регулярными выражениями медленны, хотя те, что в stringi, намного быстрее (в дополнение к тому, чтобы быть намного лучше). Что-нибудь с

Я рассмотрел множество итераций решения проблемы при создании quanteda::dfm() для моего пакета quanteda (см. GitHub repo здесь). Самое быстрое решение, безусловно, предполагает использование пакетов data.table и Matrix для индексации документов и токенизированных функций, подсчета функций внутри документов и включения результата прямо в разреженную матрицу.

В приведенном ниже коде я взял для примера текст, найденный с пакетом quanteda, который вы можете (и должен!) установить из CRAN или версии разработки из

devtools::install_github("kbenoit/quanteda")

Мне было бы очень интересно посмотреть, как это работает с вашими 4-м документами. Основываясь на моем опыте работы с corpus такого размера, он будет работать очень хорошо (если у вас достаточно памяти).

Обратите внимание, что во всех моих профилированиях я не мог улучшить скорость операций data.table с помощью какой-либо параллелизации из-за того, как они написаны на С++.

Ядро функции квантования `dfm()`

Вот основные кости исходного кода data.table, если кто-то хочет улучшить его. Он вводит список символьных векторов, представляющих токенизированные тексты. Полнофункциональный dfm() в пакете quanteda работает непосредственно на символьных векторах документов или корпусных объектов и реализует нижнюю шкалу, удаление номеров и удаление интервала по умолчанию (но все они могут быть изменены по желанию).

require(data.table)
require(Matrix)

dfm_quanteda <- function(x) {
    docIndex <- 1:length(x)
    if (is.null(names(x))) 
        names(docIndex) <- factor(paste("text", 1:length(x), sep="")) else
            names(docIndex) <- names(x)

    alltokens <- data.table(docIndex = rep(docIndex, sapply(x, length)),
                            features = unlist(x, use.names = FALSE))
    alltokens <- alltokens[features != ""]  # if there are any "blank" features
    alltokens[, "n":=1L]
    alltokens <- alltokens[, by=list(docIndex,features), sum(n)]

    uniqueFeatures <- unique(alltokens$features)
    uniqueFeatures <- sort(uniqueFeatures)

    featureTable <- data.table(featureIndex = 1:length(uniqueFeatures),
                               features = uniqueFeatures)
    setkey(alltokens, features)
    setkey(featureTable, features)

    alltokens <- alltokens[featureTable, allow.cartesian = TRUE]
    alltokens[is.na(docIndex), c("docIndex", "V1") := list(1, 0)]

    sparseMatrix(i = alltokens$docIndex, 
                 j = alltokens$featureIndex, 
                 x = alltokens$V1, 
                 dimnames=list(docs=names(docIndex), features=uniqueFeatures))
}

require(quanteda)
str(inaugTexts)
## Named chr [1:57] "Fellow-Citizens of the Senate and of the House of Representatives:\n\nAmong the vicissitudes incident to life no event could ha"| __truncated__ ...
## - attr(*, "names")= chr [1:57] "1789-Washington" "1793-Washington" "1797-Adams" "1801-Jefferson" ...
tokenizedTexts <- tokenize(toLower(inaugTexts), removePunct = TRUE, removeNumbers = TRUE)
system.time(dfm_quanteda(tokenizedTexts))
##  user  system elapsed 
## 0.060   0.005   0.064

Это просто фрагмент, конечно, но полный исходный код легко найти в репозитории GitHub (dfm-main.R).

quanteda на вашем примере

Как это для простоты?

require(quanteda)
mytext <- c("Let the big dogs hunt",
            "No holds barred",
            "My child is an honor student")
dfm(mytext, ignoredFeatures = stopwords("english"), stem = TRUE)
# Creating a dfm from a character vector ...
# ... lowercasing
# ... tokenizing
# ... indexing 3 documents
# ... shaping tokens into data.table, found 14 total tokens
# ... stemming the tokens (english)
# ... ignoring 174 feature types, discarding 5 total features (35.7%)
# ... summing tokens by document
# ... indexing 9 feature types
# ... building sparse matrix
# ... created a 3 x 9 sparse dfm
# ... complete. Elapsed time: 0.023 seconds.

# Document-feature matrix of: 3 documents, 9 features.
# 3 x 9 sparse Matrix of class "dfmSparse"
# features
# docs    bar big child dog hold honor hunt let student
# text1   0   1     0   1    0     0    1   1       0
# text2   1   0     0   0    1     0    0   0       0
# text3   0   0     1   0    0     1    0   0       1

Ответ 3

У вас есть несколько вариантов. @TylerRinker прокомментировал qdap, что, безусловно, путь.

В качестве альтернативы (или дополнительно) вы также можете воспользоваться здоровым способом parallelism. Там хорошая страница CRAN, в которой подробно описаны ресурсы HPC в R. Это немного устарело, и функциональность пакета multicore теперь содержится в parallel.

Вы можете масштабировать интеллектуальный анализ текста с помощью функций multicore apply пакета parallel или с помощью кластерных вычислений (также поддерживаемых этот пакет, а также snowfall и biopara).

Еще один способ - использовать подход MapReduce. Хорошая презентация по объединению tm и MapReduce для больших данных доступна здесь. Хотя этой презентации несколько лет, вся информация по-прежнему актуальна, актуальна и актуальна. Те же авторы новую академическую статью по теме, в которой основное внимание уделяется плагину tm.plugin.dc. Чтобы обойти, имея векторный источник вместо DirSource, вы можете использовать принуждение:

data("crude")
as.DistributedCorpus(crude)

Если ни одно из этих решений не соответствует вашему вкусу, или если вы просто чувствуете себя авантюрно, вы также можете увидеть, насколько ваш GPU сможет решить проблему. Там много различий в том, насколько хорошо графические процессоры работают относительно процессоров, и это может быть прецедентом. Если вы хотите попробовать, вы можете использовать gputools или другие пакеты GPU, упомянутые в представлении задач CRAN HPC.

Пример:

library(tm)
install.packages("tm.plugin.dc")
library(tm.plugin.dc)

GetDCorpus <-function(textVector)
{
  doc.corpus <- as.DistributedCorpus(VCorpus(VectorSource(textVector)))
  doc.corpus <- tm_map(doc.corpus, content_transformer(tolower))
  doc.corpus <- tm_map(doc.corpus, content_transformer(removeNumbers))
  doc.corpus <- tm_map(doc.corpus, content_transformer(removePunctuation))
  # <- tm_map(doc.corpus, removeWords, stopwords("english")) # won't accept this for some reason...
  return(doc.corpus)
}

data <- data.frame(
  c("Let the big dogs hunt","No holds barred","My child is an honor student"), stringsAsFactors = F)

dcorp <- GetDCorpus(data[,1])

tdm <- TermDocumentMatrix(dcorp)

inspect(tdm)

Вывод:

> inspect(tdm)
<<TermDocumentMatrix (terms: 10, documents: 3)>>
Non-/sparse entries: 10/20
Sparsity           : 67%
Maximal term length: 7
Weighting          : term frequency (tf)

         Docs
Terms     1 2 3
  barred  0 1 0
  big     1 0 0
  child   0 0 1
  dogs    1 0 0
  holds   0 1 0
  honor   0 0 1
  hunt    1 0 0
  let     1 0 0
  student 0 0 1
  the     1 0 0