Ответ 1
Нашел ответ сам. Это неловко. Или потрясающе.
Из гл. 3:
f=open('my-file.txt','rU')
raw=f.read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)
Есть трюк.
Я студент-студентка по литературе, и я проходил книгу О'Рейли в области обработки естественного языка (nltk.org/book). Это выглядит невероятно полезно. Я играл со всеми примерами текстов и примерами в главе 1, например, с конкордансами. Теперь я знаю, сколько раз Moby Dick использует слово "кит". Проблема в том, что я не могу понять, как делать эти вычисления на одном из моих собственных текстов. Я нашел информацию о том, как создавать свои собственные тела (глава 2 книги О'Рейли), но я не думаю, что именно то, что я хочу сделать. Другими словами, я хочу иметь возможность делать
import nltk
text1.concordance('yellow')
и получить места, где в моем тексте используется слово "желтый". На данный момент я могу сделать это с примерами текстов, но не своими.
Я очень новичок в python и программировании, и поэтому этот материал очень интересный, но очень запутанный.
Нашел ответ сам. Это неловко. Или потрясающе.
Из гл. 3:
f=open('my-file.txt','rU')
raw=f.read()
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)
Есть трюк.
Для структурированного импорта нескольких файлов:
from nltk.corpus import PlaintextCorpusReader
# RegEx or list of file names
files = ".*\.txt"
corpus0 = PlaintextCorpusReader("/path/", files)
corpus = nltk.Text(corpus0.words())
см.: Книга NLTK 3/раздел 1.9