1. Представьте
Прежде чем использовать токенизатор, модель и корпус nltk, запустите следующий код для загрузки:
import nltk
nltk.download()
Однако из-за сетевых причин автору так и не удалось его загрузить.
Обнаружен метод автономной установки (см. 1, 2), и конфигурация прошла успешно. Шаги следующие.
2. Конкретные шаги
- скачать nltk_data
- Ссылка для скачивания:GitHub.com/стремиться к расширению/стремиться к расширению_'s…
Учтите, что ветка загрузки — это gh-pages, и после скачивания вы получаете: nltk_data-gh-pages.zip
- Загрузить в сервер/корневой каталог
Загрузите nltk_data-gh-pages.zip в каталог /root/ Ubuntu.
- После распаковки скопируйте все файлы в пакете
(1) Создайте /root/nltk_data/
(2) Разархивируйте nltk_data-gh-pages.zip
(3) cp -rf nltk_data-gh-pages/packages/* /root/nltk_data/
- Проверка успеха и устранение ошибок
запустите следующий код
from nltk import *
text = word_tokenize("They refuse to permit us to obtain the refuse permit")
сообщить об ошибке
Resource punkt not found.
Please use the NLTK Downloader to obtain the resource:
>>> import nltk
>>> nltk.download('punkt')
Решение ошибки (1) Найдите каталог, в котором находится пункт
cd /root/nltk_data/
find . -name "punkt*"
(2) Перейдите в каталог, где находится punkt, и разархивируйте его.
cd /root/nltk_data/tokenizers
unzip punkt.zip
Запустите приведенный выше код еще раз, об ошибке не сообщается, значит, конфигурация выполнена успешно.
Причина ошибки: Ошибка говорит о том, что токенизатор punkt отсутствует, потому что скачанный выше punkt все еще в zip и не распаковывался. Он должен быть распакован вручную, прежде чем nltk сможет его распознать.
3. Резюме
Шаги просты, но загрузка и выгрузка 653M ZIP потребляет пропускную способность, и есть некоторые небольшие ямы.Это пустая трата времени, чтобы сделать это один раз, поэтому запишите это.