Когда мы обучаем языковую модель, даже если мы используем довольно большой корпус, если мы напрямую используем отношение для вычисления вероятности, большинство условных вероятностей по-прежнему равны нулю, и эта модель называется «негладкой». В практических приложениях это явление неизбежно. Гуд предложил метод оценки вероятности, который доверяет достоверной статистике и отбрасывает недостоверную статистику, и в то же время приписывает небольшую часть дисконтированной вероятности невидимым событиям (Unseen Events). Это называется оценкой Гуда-Тьюринга.
Эта идея показана на рисунке выше.Для событий, которые не появляются, мы должны считать, что они имеют вероятность появления, поэтому нам нужно вычесть часть из них из суммы вероятности, которая равна 1, и согласно Подход «чем недостовернее статистика, тем больше скидки». который: Предположим, что в корпусе слова, встречающиеся r раз, имеют, в частности, количество невстречающихся слов равно, размер корпуса N, то:
Тогда относительная частота появления r во всем корпусе равнаТеперь предположим, что при относительно небольшом r его статистика может быть недостоверной, поэтому при вычислении вероятности тех слов, которые встречаются в слове r, следует использовать меньшее количество раз, т.е., оценка Гуда-Тьюринга рассчитывается по следующей формуле:
Мы легко получаем:
Вообще говоря, количество слов, встречающихся один раз, больше, чем количество слов, встречающихся дважды, а количество слов, встречающихся дважды, больше, чем количество слов, встречающихся три раза.Это правило называетсяЗакон Ципфа. Итак, чем больше r, тем больше словменьше, т.е.. Поэтому, в целом,,и. Это присваивает малое значение невстречающемуся слову, тем самым решая проблему нулевой вероятности, в то же время снижая вероятность слова с очень низкой частотой. В практических приложениях, как правило, частота слов, время появления которых превышает определенный порог, не будет снижена.Если частота ниже этого порога, частота будет снижена, и более низкая частота будет назначена словам, которые не появляться. Частота появления таких слов таким образом оценивается как. для двухкорпусногоОценки условной вероятностиможно обрабатывать таким же образом. Мы знаем, что по предыдущему словуw_i$ сумма всех условных вероятностей должна быть равна 1, то есть:
Для бинарных групп с очень небольшим числом вхождений необходимо делать скидки в соответствии с Гудом-Тьюрингом. Формула выглядит следующим образом:
где T - упомянутый выше порог, обычно около 8-10,представляет относительную частоту после оценки Гуда-Тьюринга, в то время как:
Это гарантирует приведенной выше формуле, что сумма вероятностей равна 1. Этот метод сглаживания называется откатом Каца.