Обучение серии НЛП: сглаживание данных

искусственный интеллект алгоритм NLP

Всем привет, я хочу начать с примера из книги г-на Цзун Чэнцина по сглаживанию данных, который ведет к теме этой статьи, зачем нам нужно сглаживание данных и часто используемые модели сглаживания данных. Без лишних слов, давайте начнем:

Пожалуйста, посмотрите этот пример:

Предположим, что корпус состоит из следующих трех предложений:

①:КОРИЧНЕВЫЙ ПРОЧИТАЙТЕ СВЯТУЮ БИБЛИЮ

②: ОТМЕТИТЬ ПРОЧИТАТЬ УЧЕБНИК

③:ОН ПРОЧИТАЛ КНИГУ ДЭВИДА

Если p(BROWN READ A BOOK) рассчитывается в соответствии с методом оценки максимального правдоподобия:

следовательно:

Но тут возникает вопрос:

Если мы спросим о p(Дэвид читал книгу) в это время, какова вероятность в это время?

Но согласно нашим собственным накопленным знаниям, Браун и Дэвид оба люди, Браун может читать книги, почему Дэвид не может читать книги, это явно неправильно, и основная причина этого метода в том, что наш корпус слишком мал и не богат достаточно, На самом деле, мы надеемся, что наш корпус как можно больше, и чем он полнее, тем мощнее.В противном случае, как только вероятность вашего предложения равна 0, независимо от того, насколько красиво написано ваше предложение, оно не достигнет желаемого эффекта человека, поэтому в настоящее время нам нужно дать всем возможным строкам ненулевое значение вероятности, чтобы решить такую ​​​​проблему, которая называется сглаживанием.

Цель сглаживания была упомянута выше, а суммирование состоит в том, чтобы решить проблему нулевой вероятности, вызванной отсутствием данных (разреженностью), а используемый метод состоит в том, чтобы отделить предложения с малой вероятностью от предложений с высокой вероятностью и получить предложения с нулевой вероятностью. Яркое описание книги Цзун Чэнцина звучит так: "грабь богатых, чтобы помочь бедным", а сглаживание данных является основной проблемой языковой модели. В книге г-на Цзун Чэнцина приводится слишком много алгоритмов, здесь я записываю только несколько алгоритмов, а затем пробегаюсь по ним. идеи, если у вас есть глубокое понимание, вы можете читать и читать документы, предоставленные г-ном Цзун:

Один: дополнительный метод сглаживания

Основная идея алгоритма: Давайте сначала поговорим о методе плюс один, Метод плюс один фактически добавляет 1 к количеству раз после возникновения каждой ситуации, то есть, предполагая, что количество вхождений каждого бинарная грамматика на единицу больше фактического числа вхождений, поэтому она называется методом плюс-единица, а сглаживание сложения фактически означает, что количество вхождений каждой n-граммы не на единицу больше фактического числа статистик, но предполагается, что встречается в △ раз чаще, чем реальное появление, и 0

Второй: метод оценки Good Turing:

Этот метод лежит в основе многих техник сглаживания.

Почему сверху меньше 1, вот доказываю:

дефект:

Третий: метод сглаживания Елинека-Мерера

Основная идея: в основном используйте модель N-грамм с низким содержанием элементов для выполнения линейной интерполяции модели N-грамм с высоким содержанием элементов.

Четыре: Метод абсолютного обесценения

Сравнение различных методов сглаживания:

Независимо от размера обучающего корпуса сглаживание Кнезера-Нея и модифицированное сглаживание Кнезера-Нея превосходят все другие методы сглаживания как для биграмм, так и для триграмм. Метод сглаживания Каца и метод сглаживания Елинека-Мерчера занимают второе место.

В случае разреженных данных метод сглаживания Елинека-Мерсера превосходит метод сглаживания Каца, а в случае большого количества данных метод сглаживания Каца превосходит метод сглаживания Елинека-Мерсера.

Вот нарисовал картинку:

Вот краткий рассказ о моих маленьких мыслях, когда я читал книгу г-на Цзун Чэнцина.Чтение книги г-на Цзуна всегда кажется слишком всеобъемлющим, но многие вещи не объяснены достаточно подробно, и во многих местах есть следы спешки с работой. Общий маршрут можно подытожить, но г-н Цзун предоставил много адресов тезисов, вы можете поискать его, а затем перейти к деталям.

Факторы, влияющие на производительность алгоритма сглаживания:

Относительная производительность метода сглаживания не связана с масштабом обучающего корпуса, порядком n-граммной модели и самим обучающим корпусом, и его эффект может сильно различаться в зависимости от этих факторов.

Дефекты языковой модели:

1: Корпуса, используемые в обучающих языковых моделях, часто поступают из разных областей.Эти комплексные корпуса трудно отразить различия в правилах использования языка между разными областями, а стили очень чувствительны;

Предпосылка предположения о независимости языковой модели 2:n-грамм состоит в том, что вероятность появления текущего слова в тексте связана только с соседними n-1 словами перед ним, но это предположение явно несостоятельно. во многих случаях.