Обучение языковой модели, нулевая вероятность и проблемы сглаживания

NLP

Когда мы обучаем языковую модель, даже если мы используем довольно большой корпус, если мы напрямую используем отношение для вычисления вероятности, большинство условных вероятностей по-прежнему равны нулю, и эта модель называется «негладкой». В практических приложениях это явление неизбежно. Гуд предложил метод оценки вероятности, который доверяет достоверной статистике и отбрасывает недостоверную статистику, и в то же время приписывает небольшую часть дисконтированной вероятности невидимым событиям (Unseen Events). Это называется оценкой Гуда-Тьюринга.

math.png-38kB

Эта идея показана на рисунке выше.Для событий, которые не появляются, мы должны считать, что они имеют вероятность появления, поэтому нам нужно вычесть часть из них из суммы вероятности, которая равна 1, и согласно Подход «чем недостовернее статистика, тем больше скидки». который: Предположим, что в корпусе слова, встречающиеся r раз, имеютNrN_r, в частности, количество невстречающихся слов равноN0N_0, размер корпуса N, то:

N=r=1rNrN = \sum_{r=1}^{\infty}{rN_r}

Тогда относительная частота появления r во всем корпусе равнаrNr/NrN_r/NТеперь предположим, что при относительно небольшом r его статистика может быть недостоверной, поэтому при вычислении вероятности тех слов, которые встречаются в слове r, следует использовать меньшее количество раз, т.е.drd_r, оценка Гуда-Тьюринга рассчитывается по следующей формуле:

dr=(r+1).Nr+1/Nrd_r = (r+1).N_{r+1}/N_r

Мы легко получаем:

rdr.Nr=N\sum_{r}{d_r.N_r=N}

Вообще говоря, количество слов, встречающихся один раз, больше, чем количество слов, встречающихся дважды, а количество слов, встречающихся дважды, больше, чем количество слов, встречающихся три раза.Это правило называетсяЗакон Ципфа. Итак, чем больше r, тем больше словNrN_rменьше, т.е.Nr+1<NrN_{r+1} < N_r. Поэтому, в целом,dr<rd_r < rd0>0d_0 > 0. Это присваивает малое значение невстречающемуся слову, тем самым решая проблему нулевой вероятности, в то же время снижая вероятность слова с очень низкой частотой. В практических приложениях, как правило, частота слов, время появления которых превышает определенный порог, не будет снижена.Если частота ниже этого порога, частота будет снижена, и более низкая частота будет назначена словам, которые не появляться. Частота появления таких слов таким образом оценивается какdr/Nd_r/N. для двухкорпусного(wi1,wi)(w_{i-1},w_i)Оценки условной вероятностиP(wi1,wi)P(w_{i-1},w_i)можно обрабатывать таким же образом. Мы знаем, что по предыдущему словуwi1предсказать следующее словоw_{i-1} предсказывает следующее словоw_i$ сумма всех условных вероятностей должна быть равна 1, то есть:

P(wiwi1)=1\sum{P(w_i|w_{i-1})} = 1

Для бинарных групп с очень небольшим числом вхождений необходимо делать скидки в соответствии с Гудом-Тьюрингом. Формула выглядит следующим образом:

屏幕快照 2021-09-27 下午4.56.14.png

где T - упомянутый выше порог, обычно около 8-10,fgt()f_{gt}()представляет относительную частоту после оценки Гуда-Тьюринга, в то время как:

Q(wi1)=1wiseenP(wi1wi)wiunseenP(wi)Q(w_{i-1}) = \frac{1- \sum_{w_i seen}{P(w_{i-1}|w_i)}}{\sum_{w_i unseen}{P(w_i)}}

Это гарантирует приведенной выше формуле, что сумма вероятностей равна 1. Этот метод сглаживания называется откатом Каца.