Я использую комбинацию NLTK и scikit-learn CountVectorizer для слов и токенизации слов.

Ниже приведен пример простого использования CountVectorizer:

Теперь, скажем, я хочу удалить стоп-слова и остановить слова. Один из вариантов - сделать это следующим образом:

Но как мне лучше избавиться от символов пунктуации в этой второй версии?

Ответы

Ответ 1

Есть несколько вариантов, попробуйте удалить пунктуацию перед токенизацией. Но это означало бы, что don't → dont

import string

def tokenize(text):
    text = "".join([ch for ch in text if ch not in string.punctuation])
    tokens = nltk.word_tokenize(text)
    stems = stem_tokens(tokens, stemmer)
    return stems

Или попробуйте удалить пунктуацию после токенизации.

def tokenize(text):
    tokens = nltk.word_tokenize(text)
    tokens = [i for i in tokens if i not in string.punctuation]
    stems = stem_tokens(tokens, stemmer)
    return stems

EDITED

Вышеприведенный код будет работать, но он довольно медленный, поскольку он повторяется один и тот же текст несколько раз:

Как только удалить пунктуацию
Второй раз tokenize
В третий раз.

Если у вас есть больше шагов, например, удаление цифр или удаление стоп-слов или нижнего индекса и т.д.

Было бы лучше объединить шаги вместе как можно больше, вот несколько более эффективных ответов, которые более эффективны, если ваши данные требуют более предварительных шагов:

Сочетание текста и удаление пунктуации в NLTK и scikit-learn

Ответы

Ответ 1

EDITED