Объяснение принципа действия перчаток и реальная боевая тренировка

Шаги тренировки вектора перчаток:

1. Создайте матрицу совпадений

Предположим, что матрица совпадения равна X, а каждый элемент равен: $X_{ij}$ , что означает: во всем корпусе количество раз, когда слово j и слово i появляются вместе в окне. Обратите внимание: вообще говоря, количество раз является целым числом, но Глов считает, что вес общего количества двух слов, которые находятся дальше друг от друга, должен быть меньше. Поэтому она использует функцию затухания, основанную на расстоянии d двух слов в контекстном окне. $decay=1/d$ в качестве расчетного веса.

2. Ввести векторное представление и использовать свойства коллинеарных матриц для установления отношений

Сначала введите несколько символов: $X_i = \sum_{j-1}^NX_{i,j}$ это строка, представляющая матрицу совпадений. $P_{i,k} = \frac{ X_{i,k}}{X_i}$ Условная вероятность, указывающая вероятность того, что слово k появится в контекстной сводке слова i. $ratio_{i,j,k} = \frac{P_{i,k}}{P_{j,k}}$ Отношение двух условных вероятностей. Автор нашел это правило:

$ratio_{i,j,k}$ значение	слово j, k связано	слова j,k не связаны
слово i,k связано	приближается к 1	очень большой
слова i,k не имеют значения	очень маленький	приближается к 1

Мысль:Предположим, у нас есть вектор слова, если мы используем вектор слова $в_и, в_ж, в_к$ Вычисляется некоторой функцией $ratio_{i,j,k}$ , если мы также можем получить такое правило, это означает, что наш вектор слов имеет хорошую согласованность с матрицей совпадений, то есть наш вектор слов содержит информацию, содержащуюся в матрице совпадений, а вектор совпадений матрица содержит информацию, содержащуюся в матрице совпадения.Неявная информация - это информация о соотношении двух слов в корпусе.Следовательно, мы можем построить приблизительную связь между векторами слов и матрицами совпадения, используя следующую формулу: $w_i\widetilde{w}_j + b_i + \widetilde{b}_j=\log{X_{ij}}$

в $w_i и \widetilde{w}_j$ Это вектор слова, который мы, наконец, просим. Насчет того, как появилась эта формула, в Интернете есть много объяснений.Вывод формулы 1,Вывод формулы 2.

3. Построить функцию потерь

Затем они могут построить свою функцию потерь: $J=\sum_{i,j=1}^V{f(X_{ij})(w_i\widetilde{w}_j + b_i + \widetilde{b}_j-\log{X_{ij}})}$

Эта функция потерь является простейшей средней случайной потерей, но перед ней добавляется весовая функция. $f(X_{ij})$ , функция этой функции состоит в том, чтобы сделать какое-то ограничение в соответствии с количеством совпадений двух слов. Конкретно: В корпусе слов должно быть много и у них много совпадений (частых совпадений), надеемся:

Вес этих слов больше, чем у тех слов, которые редко встречаются вместе (редкие совпадения), поэтому функция должна быть неубывающей;
Но мы не хотим, чтобы этот вес был слишком большим (перевесным), и он не должен увеличиваться после достижения определенного уровня;
Если два слова не появляются вместе, то есть $X_{ij}=0$ , то они не должны участвовать в расчете функции потерь, т.е. $f(x)$ удовлетворить $f(0)=0$

Автор использует кусочную функцию вида:

屏幕快照 2021-09-26 下午2.31.25.png

Изображение этой функции выглядит так:

4. Обучение

Алгоритм градиентного спуска AdaGrad используется для случайной выборки всех ненулевых элементов в матрице X. Скорость обучения установлена на 0,05, Когда размер вектора меньше 300, он повторяется 50 раз и повторяется на векторах других размеров ...100 раз до схождения. Поскольку X симметричен, его учат $w_i и \widetilde{w}_j$ Он также должен быть симметричным, но итоговое значение отличается из-за разных начальных значений. Поэтому, чтобы повысить надежность, окончательно выбирается сумма двух $w_i + \widetilde{w}_j$ как окончательный вектор слова.

Согласно экспериментальному заключению, сделанному автором: размерность вектора = 300, размер контекстных окон от 6 до 10, эффект наилучший.

5. Практическое руководство

Я использую фиктивную версию Python,glove-python, потому что я просто тренируюсь, чтобы получить вектор слова, так что это относительно просто.

Установите pip, установите Glow_Python
Подготовьте собственный набор данных, разделяйте слова пробелами (можно поместить их все в одну строку, а можно поместить в отдельные строки)
Затем измените имя файла на «text8».
Запустите демо-скрипт прямо из командной строки./demo.sh
получить результат, vectors.txt

[Ссылаться на:]реализация pytorch
Вычислительные принципы, лежащие в основе GloVe
Обучение НЛП (1) --- модель перчатки --- модель вектора слова