Как создать собственный текстовый файл NLTK из текстового файла?

Я студент-студентка по литературе, и я проходил книгу О'Рейли в области обработки естественного языка (nltk.org/book). Это выглядит невероятно полезно. Я играл со всеми примерами текстов и примерами в главе 1, например, с конкордансами. Теперь я знаю, сколько раз Moby Dick использует слово "кит". Проблема в том, что я не могу понять, как делать эти вычисления на одном из моих собственных текстов. Я нашел информацию о том, как создавать свои собственные тела (глава 2 книги О'Рейли), но я не думаю, что именно то, что я хочу сделать. Другими словами, я хочу иметь возможность делать

import nltk 
text1.concordance('yellow')

и получить места, где в моем тексте используется слово "желтый". На данный момент я могу сделать это с примерами текстов, но не своими.

Я очень новичок в python и программировании, и поэтому этот материал очень интересный, но очень запутанный.

Ответы

Ответ 1

Нашел ответ сам. Это неловко. Или потрясающе.

Из гл. 3:

f=open('my-file.txt','rU')
raw=f.read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)

Есть трюк.

Ответ 2

Для структурированного импорта нескольких файлов:

from nltk.corpus import PlaintextCorpusReader

# RegEx or list of file names
files = ".*\.txt"

corpus0 = PlaintextCorpusReader("/path/", files)
corpus  = nltk.Text(corpus0.words())

см.: Книга NLTK 3/раздел 1.9