n-грамм

искусственный интеллект NLP Java Tomcat
n-грамм

языковая модель

Языковая модель является очень важной частью статистической обработки естественного языка.Обычно используемой языковой моделью является модель n-грамм.Конечно, сейчас более популярна модель языка нейронной сети. Модель n-грамм требует дополнительного сглаживания, а модель языка нейронной сети — нет, что имеет свой эффект сглаживания.

n-грамм

N-gram (n-gram) — очень важная статистическая языковая модель в НЛП.Проще говоря, это вычисление вероятности определенного предложения.Например, вероятности предложения «Я сегодня опаздываю на работу» в целом язык, как правило, статистика будет вестись через большой корпус.

Чтобы описать на математическом языке, предположим, что наше предложение


, то вероятность предложения равна

Среди них P(w1) представляет вероятность появления первого слова w1, P(w2|w1) — вероятность появления второго слова при условии, что появляется первое слово, и так далее. Например, s=«Я сегодня опаздываю на работу», тогда P(s)=P(я)P(сегодня|я)P(на работе|я,сегодня)P(опоздал|опаздываю|я,сегодня, на работу ).

Если вероятность рассчитывается строго по приведенной выше формуле, предполагая, что общий размер словаря равен N, то необходимо учитывать вероятность t-го слова


В этом случае, когда N велико и длина предложения велика, будет сгенерировано астрономическое количество собственных параметров, которое невозможно вычислить.

Пространство параметров приведенной выше языковой модели слишком велико, а данные разрежены, что делает ее практически непригодной для использования. Итак, нам нужно допущение о том, что вероятность появления слова связана только с одним или несколькими словами перед ним — это допущение Маркова.

  • При n=1 она называется унарной грамматикой и записывается как униграмма, а вероятность появления i-го слова в это время совершенно не зависит от предыдущей ситуации.
  • При n=2 она называется биграммой, которая называется цепью Маркова первого порядка, обозначается биграммой, а вероятность появления i-го слова в этот момент времени связана с его предыдущим словом.
  • При n=3 она называется триграммой, называется цепью Маркова второго порядка, обозначается как триграмма, а вероятность появления i-го слова в этот момент времени связана с его первыми двумя словами.

При сделанных предположениях задача упрощается: для биграмм вероятность появления определенного предложения можно выразить следующим образом

В практических приложениях n больше 3, и если оно слишком велико, остается слишком много свободных параметров. Кроме того, чтобы сделать приведенную выше формулу по-прежнему значимой, когда t = 1, можно добавить маркер начала предложения перед предложением, а маркер конца предложения также можно добавить в конце.

Вычислить условные вероятности

сглаживание

Зачем нужно сглаживание? Если в некоторых предложениях есть слова, не вошедшие в учебный корпус, или связанные слова не появляются в учебном корпусе. В это время вероятность станет равной 0, например, вычисление

Но на самом деле нельзя сказать, что его вероятность равна 0, поэтому в этот момент требуется сглаживание. Самый простой процесс сглаживания — это добавление метода 1, предполагая, что количество вхождений на единицу больше, чем фактическое число, так что случая 0 не будет.


где Т - общее количество слов.

Метод «плюс 1» иногда плохо работает, и с ним можно бороться другими способами, в том числе

  • Метод оценки Гуда-Тьюринга
  • сглаживание Каца
  • сглаживание Елинека-Мерсера
  • сглаживание Кнезера-Нея
  • Байесовское сглаживание
  • и т.д

недостаток

Метод n-грамм обработки информации о последовательности все еще имеет ограничения, например, когда n больше 3, он не может быть обработан, а пространство параметров слишком велико. Кроме того, он не может выражать ассоциацию между словами.

========Время рекламы========

Меню официальной учетной записи было разделено на «распределенное», «машинное обучение», «глубокое обучение», «НЛП», «глубина Java», «ядро параллелизма Java», «исходный код JDK», «ядро Tomcat», и т.д. Там может быть один стиль, чтобы удовлетворить ваш аппетит.

Моя новая книга «Анализ дизайна ядра Tomcat» продана на Jingdong, нуждающиеся друзья могут перейти кitem.JD.com/12185360.Контракт…Купить. Спасибо друзья.

Зачем писать «Анализ проектирования ядра Tomcat»

=========================

Добро пожаловать, чтобы следовать:

这里写图片描述
напишите сюда описание фото