Как загрузить данные NLTK?
Обновленный ответ: NLTK работает на 2,7 скважины. У меня было 3.2. Я удалил 3.2 и установил 2.7. Теперь он работает!!
Я установил NLTK и попытался загрузить данные NLTK. То, что я сделал, это следить за тем, как это происходит на этом сайте: http://www.nltk.org/data.html
Я загрузил NLTK, установил его, а затем попытался запустить следующий код:
>>> import nltk
>>> nltk.download()
Он дал мне сообщение об ошибке, как показано ниже:
Traceback (most recent call last):
File "<pyshell#6>", line 1, in <module>
nltk.download()
AttributeError: 'module' object has no attribute 'download'
Directory of C:\Python32\Lib\site-packages
Пробовал как nltk.download()
, так и nltk.downloader()
, оба дали мне сообщения об ошибках.
Затем я использовал help(nltk)
, чтобы вытащить пакет, он показывает следующую информацию:
NAME
nltk
PACKAGE CONTENTS
align
app (package)
book
ccg (package)
chat (package)
chunk (package)
classify (package)
cluster (package)
collocations
corpus (package)
data
decorators
downloader
draw (package)
examples (package)
featstruct
grammar
help
inference (package)
internals
lazyimport
metrics (package)
misc (package)
model (package)
parse (package)
probability
sem (package)
sourcedstring
stem (package)
tag (package)
test (package)
text
tokenize (package)
toolbox
tree
treetransforms
util
yamltags
FILE
c:\python32\lib\site-packages\nltk
Я вижу Downloader там, не уверен, почему он не работает. Python 3.2.2, система Windows vista.
Ответы
Ответ 1
TL; DR
Чтобы загрузить определенный набор данных/модели, используйте nltk.download()
, например, если вы хотите загрузить punkt
предложения punkt, используйте:
$ python3
>>> import nltk
>>> nltk.download('punkt')
Если вы не уверены, какие данные/модель вам нужны, вы можете начать с базового списка моделей данных +:
>>> import nltk
>>> nltk.download('popular')
Будет загружен список "популярных" ресурсов, в том числе:
<collection id="popular" name="Popular packages">
<item ref="cmudict" />
<item ref="gazetteers" />
<item ref="genesis" />
<item ref="gutenberg" />
<item ref="inaugural" />
<item ref="movie_reviews" />
<item ref="names" />
<item ref="shakespeare" />
<item ref="stopwords" />
<item ref="treebank" />
<item ref="twitter_samples" />
<item ref="omw" />
<item ref="wordnet" />
<item ref="wordnet_ic" />
<item ref="words" />
<item ref="maxent_ne_chunker" />
<item ref="punkt" />
<item ref="snowball_data" />
<item ref="averaged_perceptron_tagger" />
</collection>
РЕДАКТИРОВАНИЕ
В случае, если кто-то избегает ошибок при загрузке больших наборов данных из nltk
, с fooobar.com/questions/228305/...
$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.zip
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite
$ python
>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it already installed.
>>> dler.download('popular')
обновленный
Начиная с версии 3.2.5, NLTK имеет более информативное сообщение об ошибке, когда ресурс nltk_data
не найден, например:
>>> from nltk import word_tokenize
>>> word_tokenize('x')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/l/alvas/git/nltk/nltk/tokenize/__init__.py", line 128, in word_tokenize
sentences = [text] if preserve_line else sent_tokenize(text, language)
File "/Users//alvas/git/nltk/nltk/tokenize/__init__.py", line 94, in sent_tokenize
tokenizer = load('tokenizers/punkt/{0}.pickle'.format(language))
File "/Users/alvas/git/nltk/nltk/data.py", line 820, in load
opened_resource = _open(resource_url)
File "/Users/alvas/git/nltk/nltk/data.py", line 938, in _open
return find(path_, path + ['']).open()
File "/Users/alvas/git/nltk/nltk/data.py", line 659, in find
raise LookupError(resource_not_found)
LookupError:
**********************************************************************
Resource punkt not found.
Please use the NLTK Downloader to obtain the resource:
>>> import nltk
>>> nltk.download('punkt')
Searched in:
- '/Users/alvas/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
- ''
**********************************************************************
связанные с
Ответ 2
Не называйте свой файл nltk.py Я использовал тот же код и назову его nltk, и получил ту же ошибку, что и у вас, я изменил имя файла, и все прошло хорошо.
Ответ 3
Пытаться
nltk.download('all')
это загрузит все данные и не нужно скачивать по отдельности.
Ответ 4
Установите Pip: запустите в терминале: sudo easy_install pip
Установите Numpy (необязательно): запустите: sudo pip install -U numpy
Установите NLTK: запустите: sudo pip install -U nltk
Тестовая установка: запустить: python
затем наберите: import nltk
Скачать корпус
запустить: python -m nltk.downloader all
Ответ 5
Вы не можете иметь сохраненный файл Python с именем nltk.py
потому что интерпретатор читает из этого, а не из фактического файла.
Измените имя вашего файла, из которого читается оболочка python, и попробуйте то, что вы делали изначально:
import nltk
а затем nltk.download()
Ответ 6
Если вы используете действительно старую версию nltk, то модуль загрузки не доступен (ссылка)
Попробуй это:
import nltk
print(nltk.__version__)
Что касается ссылки, все, что после 0.9.5 должно быть хорошо
Ответ 7
Это сработало для меня:
nltk.set_proxy('http://user:[email protected]:8080')
nltk.download()
Ответ 8
Пожалуйста, попробуй
import nltk
nltk.download()
После запуска вы получите что-то вроде этого
NLTK Downloader
---------------------------------------------------------------------------
d) Download l) List u) Update c) Config h) Help q) Quit
---------------------------------------------------------------------------
Затем Press d
Делай как следует:
Downloader> d all
По завершении вы получите следующее сообщение, а затем - "Запрос", затем Press q
Ответ 9
У меня была аналогичная проблема. Вероятно, проверьте, используете ли вы прокси.
Если да, настройте прокси-сервер перед загрузкой:
nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))
Ответ 10
Это очень просто....
- Откройте pyScripter или любой редактор
- Создайте файл Python, например: install.py
- напишите ниже код в нем.
import nltk
nltk.download()
- Появится всплывающее окно и нажмите кнопку загрузки.
![The download window]]()
Ответ 11
вы должны добавить python к вашему PATH во время установки python... после установки.. open cmd prompt type command- pip install nltk
затем перейдите в IDLE и откройте новый файл. Сохраните его как file.py..откройте файл file.py
введите следующее:
import nltk
nltk.download()
Ответ 12
Попробуйте скачать zip файлы с http://www.nltk.org/nltk_data/, а затем разархивировать, сохранить в папке Python, например, C:\ProgramData\Anaconda3\nltk_data
Ответ 13
Иногда на вашем офисном компьютере вы не можете автоматически загружать данные NLTK. Затем вы должны загрузить и установить их вручную.
Просто следуйте инструкциям, приведенным в сообщении ниже, чтобы иметь четкое представление: https://www.thinkinfi.com/2018/09/how-to-download-nltk-corpus-manually.html
Ответ 14
если вы уже сохранили имя файла nltk.py и снова переименуйте его в my_nltk_script.py. проверьте, существует ли еще файл nltk.py. Если да, то удалите их и запустите файл my_nltk.scripts.py, он должен работать!
Ответ 15
Я думаю, что вы, должно быть, назвали файл как nltk.py(или папка состоит из файла с этим именем), поэтому измените его на любое другое имя и попробуйте выполнить его....
Ответ 16
Вы можете попробовать:
>> $ import nltk
>> $ nltk.download_shell()
>> $ d
>> $ *name of the package*
happy nlp'ing.