Как вызвать предварительно обученную модель встраивания китайского слова с помощью Python и gensim?

искусственный интеллект Python GitHub Microsoft

Попробовав модель встраивания английских слов с помощью Python и Spacy, вы действительно хотите знать, как выражать китайские слова с помощью векторов, чтобы машина могла получать больше семантической информации при моделировании? Этот видео-урок научит вас работать.

сомневаться

написал "Как обрабатывать естественный язык с помощью Python? (Spacy и встраивание слов)«После статьи многие студенты оставляли сообщения или личные сообщения, спрашивая меня, как использовать Spacy для обработки китайских слов и сбора дополнительной семантической информации.

Напомним, что Spacy может делать много интересных вещей с предварительно обученными моделями для встраивания слов.

Например, чтобы вычислить сходство между словами:

Вот сходство между «собакой» и «кошкой»:

dog.similarity(cat)
0.80168545

Вот сходство между «собакой» и «апельсином»:

dog.similarity(orange)
0.2742508

Результат также можно рассчитать с помощью семантики признаков.

Например, чтобы сделать cloze:

? - woman = king - queen

С первого взгляда можно сказать, что нужно писать «мужчина», верно?

Преобразуйте формулу:

guess_word = king - queen + woman

Введите последовательность слов справа:

words = ["king", "queen", "woman"]

После выполнения функции сравнения вы увидите следующие результаты:

['MAN', 'Man', 'mAn', 'MAn', 'MaN', 'man', 'mAN', 'WOMAN', 'womAn', 'WOman']

Это доказывает, что модель встраивания слов фиксирует гендерные различия и знает сходство «мужчины» и «женщины», «короля» и «королевы» в других измерениях признаков.

Кроме того, мы также можем сжать взаимосвязь между словами в двумерную плоскость.

впечатляющиймне немного жальДа, приведенные выше примерыанглийскийиз.

Таккитайский языкШерстяная ткань?

Могут ли китайцы также выполнять семантические вычисления и визуализацию?

ответ:

Может.

Жаль, что в список языков, поддерживаемых пакетом Spacy, пока не входит китайский.

Но кто сказал, что при использовании Python для встраивания слов вы должны использовать Spacy?

мы можем использоватьДругие инструменты.

инструмент

Пакет, который мы используем на этот раз,Gensim.

Его лозунг:

Topic modelling for humans.

Если вы читали мойКак сканировать данные с помощью Python? (1) Веб-скрапинг"и"Как клонировать среду выполнения учебного кода Python с помощью pipenv? (включая видео объяснение), то вы должны помнить, что я очень восхищаюсь этимиподходит для использования человекомупаковка.

Пакет Gensim является мощным и может даже использоваться непосредственно для выполненияанализ эмоцийимайнинг темы(По смыслу майнинга темы можете обратиться к моему "Как извлечь темы из массивного текста с помощью Python?" статья).

Более того, для достижения этих функций операторы, используемые Gensim, очень лаконичны и лаконичны.

В этом руководстве основное внимание уделяется модели встраивания китайских слов, поэтому другие функции представлены не будут.

Как использовать Gensim для обработки предварительно обученных моделей с встраиванием китайских слов?

я сделалвидеоурокДай тебе.

видеоурок

В уроке мы используем предварительно обученную модель из Facebook под названием fasttext.

Его ссылка на github находится по адресуздесь.

В видео я шаг за шагом покажу вам этапы реализации семантических вычислений и функций визуализации и подробно объясню их.

Я написал исходный код в Jupyter Notebook, затем позвонил в mybinder и перенес среду выполнения учебника в облако.

Пожалуйста, нажмитеэта ссылка(t.cn/RBSyEhp), прямо в нашу экспериментальную среду.

тыненужныйУстановите любой пакет на свой локальный компьютер. Если у вас есть современный браузер (включая Google Chrome, Firefox, Safari, Microsoft Edge и т. Все зависимое ПО, явсе готово для вас.

Если вас интересует процесс сборки этой среды выполнения кода, пожалуйста, прочитайте мой "Как запустить код Python с iPad?" статья.

Открыв нашу среду в браузере, посмотрите видеоурок, который я записал для вас.

Ссылка на видео-урок находится по адресуздесь.

Я надеюсь, что вы сможете следовать уроку и сделать это на практике. Так урожай будет больше.

Я надеюсь, что с помощью этого урока вы усвоили следующие знания:

  • Как построить языковую модель с помощью gensim;
  • Как читать слово, встраивая предтренировочную модель;
  • Как найти примерный словарь слова по его семантике;
  • Как использовать семантические вычисления для запроса;
  • Как препроцессировать китайский текст с заменой строк и сегментацией заикающихся слов;
  • Как использовать tsne для сжатия многомерных векторов слов в низкоразмерные;
  • Как визуализировать лексические коллекции, сжатые до небольших размеров;

Если вы хотите запускать примеры из этого руководства локально, а не в облаке, используйтеэта ссылка(t.cn/R1T4400), чтобы загрузить все архивы исходного кода и файлов конфигурации среды выполнения (Pipenv), используемые в этой статье.

Тогда, пожалуйста, обратитесь кКак клонировать среду выполнения учебного кода Python с помощью pipenv?"Описание статьи, используя Pipenv, создайте среду выполнения кода локально.

если ты знаешькак использовать гитхаб, также добро пожаловать в использованиеэта ссылка(t.cn/RBS4Ljo) для доступа к соответствующему репозиторию github и выполнения таких операций, как клонирование или разветвление.

Конечно, было бы лучше, если бы вы добавили звездочку в мой репозиторий.

объяснять

Если вы не удовлетворены простым изучением шагов операции и хотите узнать больше о принципе встраивания слов в модель предварительного обучения, у меня есть видео, записанное на собрании группы выпускников здесь.

Пожалуйста, нажмитеэта ссылкаПроверять.

Пожалуйста, поймите, что из-за плохого оборудования результат записи похож на откровенную фотографию.

После записи лекционной части мои студенты также задавали вопросы.

Поэтому я сделал еще один вопрос-ответ и записал видео.

Пожалуйста, нажмитеэта ссылкаОзнакомьтесь с процессом вопросов и ответов.

Я надеюсь, что эти объяснения и ответы помогут вам понять и использовать модель предварительной подготовки для встраивания китайских слов.

Лайк пожалуйста лайк. Вы также можете подписаться на мой публичный аккаунт в WeChat и закрепить его."Юшу Чжилань" (нкваншуйи).

Если вы интересуетесь наукой о данных, вы можете прочитать мою серию постов с учебными указателями "Как эффективно начать работу с наукой о данных?", есть более интересные задачи и решения.