Загрузите и установите nltk_data вручную.

NLP

1. Представьте

Прежде чем использовать токенизатор, модель и корпус nltk, запустите следующий код для загрузки:

import nltk
nltk.download()

Однако из-за сетевых причин автору так и не удалось его загрузить.

Обнаружен метод автономной установки (см. 1, 2), и конфигурация прошла успешно. Шаги следующие.

2. Конкретные шаги

  1. скачать nltk_data

Учтите, что ветка загрузки — это gh-pages, и после скачивания вы получаете: nltk_data-gh-pages.zip

  1. Загрузить в сервер/корневой каталог

Загрузите nltk_data-gh-pages.zip в каталог /root/ Ubuntu.

  1. После распаковки скопируйте все файлы в пакете

(1) Создайте /root/nltk_data/

(2) Разархивируйте nltk_data-gh-pages.zip

(3) cp -rf nltk_data-gh-pages/packages/* /root/nltk_data/

  1. Проверка успеха и устранение ошибок

запустите следующий код

from nltk import *
text = word_tokenize("They refuse to permit us to obtain the refuse permit")

сообщить об ошибке

  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')

Решение ошибки (1) Найдите каталог, в котором находится пункт

cd /root/nltk_data/
find . -name "punkt*"

(2) Перейдите в каталог, где находится punkt, и разархивируйте его.

cd /root/nltk_data/tokenizers
unzip punkt.zip

Запустите приведенный выше код еще раз, об ошибке не сообщается, значит, конфигурация выполнена успешно.

Причина ошибки: Ошибка говорит о том, что токенизатор punkt отсутствует, потому что скачанный выше punkt все еще в zip и не распаковывался. Он должен быть распакован вручную, прежде чем nltk сможет его распознать.

3. Резюме

Шаги просты, но загрузка и выгрузка 653M ZIP потребляет пропускную способность, и есть некоторые небольшие ямы.Это пустая трата времени, чтобы сделать это один раз, поэтому запишите это.

4. Ссылка

  1. blog.CSDN.net/Длинный и толстый, чтобы понять/…
  2. blog.CSDN.net/QQ_43140627…