От Маркова к максимальной энтропии к условным случайным полям

машинное обучение задняя часть
От Маркова к максимальной энтропии к условным случайным полям

Марковская модель

Для системы, содержащей n конечных состояний, состояние переходит в другое состояние с течением времени. Если состояние в момент времени t связано с предыдущим m раз, оно называется цепью Маркова m-го порядка, то есть марковский процесс является случайным процессом, и система имеет вероятность перехода из одного состояния в другое состояние, и вероятность перехода проходит через первые m состояний. Это модель Маркова, или ММ, которую также можно рассматривать как стохастический автомат с конечным числом состояний.

Пример марковской модели

Согласно предложению «быстрая коричневая лиса перепрыгивает через ленивую собаку», чтобы получить цепь Маркова, сначала задайте каждое слово как состояние, а затем вычислите вероятность перехода между состояниями.

Когда для статистики используется большой объем текста, будет получена большая матрица переходов состояний, например, слова, которые можно соединить после , и соответствующая вероятность

TIM图片20190503134318

Скрытая марковская модель

Модель Маркова может иметь дело с проблемами вероятности непосредственно наблюдаемых последовательностей и может установить цепь Маркова с помощью гипотезы Маркова для решения некоторых проблем с последовательностями. Но иногда наблюдаемый объект не является целевым объектом, с которым мы имеем дело, его законы скрыты в наблюдаемом объекте, и существует определенная корреляция между наблюдаемым событием и скрытым событием, в этом случае используется скрытая марковская модель. А именно ХММ.

По сути, скрытая марковская модель представляет собой двойной стохастический процесс, который содержит последовательность состояний и последовательность наблюдений. Первый случайный процесс должен генерировать последовательность состояний посредством случайного перехода состояния, а второй случайный процесс должен генерировать последовательность наблюдений в соответствии со случайным переходом последовательности состояний.

TIM图片20190503214654

Важные предположения HMM

  1. Однородная гипотеза Маркова, то есть состояние в любой момент времени t зависит только от состояния в предыдущий момент времени и не имеет ничего общего с состоянием и последовательностью наблюдений в другие моменты времени.
  2. Предположение о независимости наблюдения, то есть наблюдение в любой момент времени t зависит только от состояния в этот момент времени и не имеет ничего общего с наблюдениями и состояниями в другие моменты времени.
  3. Допущение неподвижности, т.е. состояния, не зависящего от конкретного времени.

модель максимальной энтропии

Модель максимальной энтропии – это модель, определяемая по энтропии Модель максимальной энтропии считает, что модель с наибольшей энтропией является лучшей среди всех возможных вероятностных моделей. То есть у нас есть только часть информации неизвестного распределения, и есть много тех, которые соответствуют известному распределению, и тогда распределение определяется максимальной энтропией.

Пока вероятность события удовлетворяет всем известным ограничениям и не делает предположений о какой-либо неизвестной информации, будущее рассматривается с равной вероятностью. Когда энтропия максимальна, неопределенность системы максимальна.

TIM图片20190504005900

Марковская модель с максимальной энтропией

В скрытой марковской модели используется допущение о независимости наблюдения, то есть наблюдение в любой момент времени зависит только от состояния в этот момент и не имеет ничего общего с наблюдениями и состояниями в другое время. Но во многих сценариях нам нужно учитывать характеристики наблюдения, то есть мы думаем, что состояние в определенный момент зависит от состояния в предыдущий момент и наблюдения в текущий момент. И если для изучения этих условных вероятностей используется модель максимальной энтропии, то это и есть марковская модель максимальной энтропии.

images

Условная вероятность в каждый момент выглядит следующим образом, где Z используется для нормализации,\lambda— весовой параметр каждой функции признаков, f — функция признаков, и многие функции признаков могут быть определены в соответствии с реальной ситуацией.

P\left(s | s^{\prime}, o\right)=\frac{\exp \left(\sum_{a} \lambda_{a} f_{a}(o, s)\right)}{Z\left(o, s^{\prime}\right)}

условное случайное поле

Для обработки последовательностей, если вы хотите учитывать не только характеристики между наблюдением и состоянием, но и характеристики между предыдущим и предыдущим состояниями, будет рассматриваться условное случайное поле, точнее линейное условное случайное поле. Условное случайное поле отказывается от однородного марковского предположения и предположения о независимости от наблюдения в скрытом марковском, и модель более сложна, но она может изучить больше функций.

Условные случайные поля вводят характеристические функции, в реальных условиях можно определить множество характеристических функций, в том числе характеристики различных состояний и характеристики наблюдений.

P(Y|X) = exp\Big(\sum\limits_{i,k} \lambda_kt_k(Y_{i-1},Y_i, X,i) +\sum\limits_{i,l}\mu_ls_l(Y_i, X,i)\Big)

Если добавить нормализацию, условная вероятность окончательного условного случайного поля будет равна

P(Y|X) = \frac{1}{Z(X)} exp(\sum_{k=1}^{K} \lambda_k F_k(Y,X))

в,

Z(X) =\sum_{y} exp(\sum_{k=1}^{K} \lambda_k F_k(Y,X))

Обучение условного случайного поля отличается от обучения скрытой марковской модели тем, что скрытая марковская модель моделирует различные условные вероятности, а условное случайное поле подгоняет функцию от целого, и можно использовать метод оценки максимального правдоподобия . . .

------------- Рекомендуем прочитать ------------

Краткое изложение моих проектов с открытым исходным кодом (машинное и глубокое обучение, НЛП, сетевой ввод-вывод, AIML, протокол mysql, чат-бот)

Зачем писать «Анализ проектирования ядра Tomcat»

2018 Алгоритмы структуры сводных данных

Сборник статей по машинному обучению за 2018 г.

Сводка статей о глубине Java за 2018 г.

Резюме по обработке естественного языка за 2018 г.

Резюме глубокого обучения за 2018 г.

Сводка статей об исходном коде JDK за 2018 г.

Обзор Java Concurrency Core за 2018 г.

Итоговые чтения за 2018 год


Поговори со мной, задай мне вопросы:

Добро пожаловать, чтобы следовать: