Как загрузить предложения в Python gensim?

Я пытаюсь использовать word2vec модуль из gensim библиотеки обработки естественного языка в Python.

Документы говорят инициализировать модель:

В каком формате gensim ожидает ввода предложений? У меня есть исходный текст

Какую дополнительную обработку мне нужно отправить в word2fec?

ОБНОВЛЕНИЕ: Вот что я пробовал. Когда он загружает предложения, я ничего не получаю.

Ответы

Ответ 1

Список предложений utf-8. Вы также можете передавать данные с диска.

Убедитесь, что он utf-8, и разделите его:

sentences = [ "the quick brown fox jumps over the lazy dogs",
"Then a cop quizzed Mick Jagger ex-wives briefly." ]
word2vec.Word2Vec([s.encode('utf-8').split() for s in sentences], size=100, window=5, min_count=5, workers=4)

Ответ 2

Как указано alKid, сделайте это utf-8.

Говоря о двух дополнительных вещах, о которых вам, возможно, придется беспокоиться.

Вход слишком велик, и вы загружаете его из файла.
Удаление стоп-слов из предложений.

Вместо того, чтобы загружать большой список в память, вы можете сделать что-то вроде:

import nltk, gensim
class FileToSent(object):    
    def __init__(self, filename):
        self.filename = filename
        self.stop = set(nltk.corpus.stopwords.words('english'))

    def __iter__(self):
        for line in open(self.filename, 'r'):
        ll = [i for i in unicode(line, 'utf-8').lower().split() if i not in self.stop]
        yield ll

И затем,

sentences = FileToSent('sentence_file.txt')
model = gensim.models.Word2Vec(sentences=sentences, window=5, min_count=5, workers=4, hs=1)