Байесовская сеть, я наконец понял после прочтения этого (с кодом)!

машинное обучение

1. Понимание вероятностных графических моделей

Вероятностная графическая модель - это теория, которая использует графики для представления зависимости переменных от вероятности.Сочетая знания теории вероятностей и теории графов, графики используются для представления совместного распределения вероятностей переменных, связанных с моделью. Разработано лауреатом премии Тьюринга Перлом.

Если есть одно слово для описания вероятностной графической модели, то это «элегантная». Для решения практической задачи мы хотим иметь возможность извлекать знания, неявно содержащиеся в данных. Вероятностная графическая модель строит такой граф, используя узлы наблюдения для представления наблюдаемых данных, скрытые узлы для представления потенциальных знаний и ребра для описания взаимосвязи между знаниями и данными.Наконец, на основе такого графика зависимости получается распределение вероятностей, что очень "элегантно" решает проблему.

Узлы в графе вероятностей делятся на скрытые узлы и узлы наблюдения, а ребра делятся на направленные ребра и неориентированные ребра. С точки зрения теории вероятностей узлы соответствуют случайным величинам, а ребра соответствуют зависимостям или корреляциям случайных величин, гдеНаправленные ребра представляют собой односторонние зависимости, а ненаправленные ребра представляют взаимные зависимости..

Вероятностные графические модели делятся на две категории: Байесовская сеть и Марковская сеть. Байесовская сеть может быть представлена ​​структурой ориентированного графа, а сеть Маркова может быть представлена ​​структурой сети неориентированного графа. Более подробно, вероятностные графические модели включают наивные байесовские модели, модели максимальной энтропии, скрытые марковские модели, условные случайные поля, тематические модели и т. д. и широко используются во многих сценариях машинного обучения.

2. Подсчет байесовских сетей

2.1 Частотный взгляд

Долгое время люди фиксировали только 0 и 1 для вероятности того, что что-то произойдет или не произойдет, то есть это либо произойдет, либо не произойдет, и никогда не считают вероятность того, что что-то произойдет, а вероятность того, что это не произойдет, как большой. А вероятность хоть и неизвестна, но есть хотя бы определенная величина. Например, если вы зададите людям в это время вопрос: «Есть в мешке несколько белых и черных шаров, какова вероятность того, что из мешка выпадет белый шар?» Вероятность θ равна 1. /2, либо вы получаете белый шар, либо вы не можете получить белый шар, то есть θ может иметь только одно значение, и независимо от того, сколько раз вы получаете белый шар,Вероятность θ всегда равна 1/2, то есть не меняется при изменении наблюдения X.

эточастостИдея долгое время управляла представлениями людей, пока не появился персонаж по имени Томас Байес.

2.2 Байесовская школа

При жизни Томаса Байеса (1702-1763) он не был известен в то время в народе, редко публиковал статьи или труды и очень мало общался с академическими кругами того времени. живущий народный академик «диаоси», но этот «диаоси» наконец опубликовал статью под названием «Очерк к решению проблемы в учении о шансах», что переводится как: решение задачи в теории шансов. Вы можете подумать, что я собираюсь сказать: публикация этой статьи случайным образом произвела сенсационный эффект, установив тем самым место Байеса в академической истории.

Эту статью можно проиллюстрировать приведенным выше примером: «Есть мешок, содержащий несколько белых и черных шаров. Какова вероятность θ вытащить из мешка белый шар?» Байес считает, что вероятность выпадения белого шара неопределенна. значение, потому что оно содержит элемент случайности. Например, когда друг начинает бизнес, вы четко знаете, что есть два исхода открытия бизнеса, то есть успех или неудача, но вы все равно не можете не оценить, насколько велика вероятность того, что он преуспеет в открытии бизнеса? Если вы хорошо его знаете, обладаете методами, ясным мышлением, настойчивостью и умением объединяться с окружающими людьми, вы невольно оцените, что вероятность его предпринимательского успеха может быть более 80%. Этот тип мышления, который отличается от исходного мышления «черное или белое, 0 или 1», являетсяБайесовский способ мышления.

Давайте кратко обобщим различные способы мышления между частотниками и байесовцами:

  • Частотист рассматривает параметр θ, который необходимо вывести, как фиксированную неизвестную константу, т. е. хотя вероятность и неизвестна, но есть хотя бы определенное значение, при этом выборка X является случайной, поэтому частотник ориентируется на изучение выборочного пространства Большинство вычислений вероятности все для распределения выборки X;
  • Байесовская точка зрения противоположна, они думают, что параметр является случайной величиной, а выборка X фиксирована, потому что выборка фиксирована, поэтому они сосредотачиваются на распределении параметра.

Поскольку байесовцы рассматривают его как случайную величину, вычисляемое распределение должно быть известно заранее, т. е. до того, как появится выборка (или до того, как будет наблюдаться X), какое оно имеет распределение?

Например, если вы бросите мяч на бильярдный стол, куда он приземлится? Если шар брошен беспристрастно, то у шара есть одинаковые шансы приземлиться на любую позицию на бильярдном столе, то есть вероятность того, что шар приземлится на определенную позицию на бильярдном столе, подчиняется равномерному распределению. Это распределение, относящееся к свойству основной посылки, определенному перед экспериментом, называетсяпредварительное распределение или безусловное распределение.

Среди них предварительная информация обычно исходит из опыта и исторических данных. Например, когда Линь Дан соревнуется с определенным игроком, комментатор обычно делает приблизительное суждение об исходе этого соревнования, основываясь на результатах предыдущих соревнований Линь Дана. Другой пример: фабрика ежедневно проводит проверки качества продукции, чтобы оценить долю несоответствующих продуктов θ. Через некоторое время будет накоплен большой объем исторических данных. Эти исторические данные являются предварительными знаниями. знания, то есть основа для принятия решения о том, нужно ли проверять продукт каждый день.Если исторические данные показывают, что частота отказов продукта составляет всего 0,01%, его можно рассматривать как надежный продукт или продукт без проверок. , и только один отбор проб в месяц два раза, что позволяет сэкономить много трудовых и материальных ресурсов.

иАпостериорное распределениеπ(θ|X) также обычно считается условным распределением θ для данной выборки X, а значение θMD, которое максимизирует π(θ|X), называется θMDмаксимальная апостериорная оценка, как и в классической статистикеоценка максимального правдоподобия.

Все вместе это выглядит так, как если бы у людей вначале были лишь жалкие предварительные знания о природе, но благодаря постоянным наблюдениям и экспериментам, направленным на получение новых образцов и результатов, люди стали все более и более основательно понимать законы природы. Таким образом, байесовский метод не только соответствует образу мышления в повседневной жизни людей, но и соответствует законам понимания людьми природы.После непрерывного развития он в конечном итоге занимает половину области статистики и конкурирует с классическими статистика.

2.3 Теорема Байеса

Условная возможность(также известная как апостериорная вероятность) — это вероятность того, что событие А произойдет при условии, что другое событие В уже произошло. Условная вероятность выражается как P(A|B), что читается как «вероятность A при условии B».

Например, на рисунке выше для событий или подмножеств A и B в одном и том же выборочном пространстве Ω, если элемент, случайно выбранный из Ω, принадлежит B, то вероятность того, что этот случайно выбранный элемент также принадлежит A, определяется как условная вероятность A при предпосылке:

P(A|B)=\frac{P(A\cap_{}B)}{P(B)}

Совместная вероятность:P(A\cap_{}B)或者P(A,B)

Предельная вероятность (априорная вероятность): P(A) или P(B)

2.4 Байесовские сети

Байесовская сеть, также известная как сеть убеждений или направленная ациклическая графическая модель, представляет собой вероятностную графическую модель, впервые предложенную Джудеей Перл в 1985 году. Это модель обработки неопределенности, которая имитирует причинно-следственную связь в человеческом мышлении, а ее топология сети представляет собой ориентированный ациклический граф (DAG).

Узлы в ориентированном ациклическом графе байесовской сети представляют собой случайные величины.\{X_1,X_2,...,X_n\}

Это могут быть наблюдаемые переменные или скрытые переменные, неизвестные параметры и т. д. Переменные или суждения, считающиеся причинными (или безусловно независимыми), соединены стрелками. Если два узла соединены одной стрелкой, указывающей, что один из узлов является «родителем», а другой — «потомком», два узла будут генерировать значение условной вероятности.

Например, если предположить, что узел E непосредственно влияет на узел H, то есть E→H, стрелка от E к H используется для установления направленной дуги (E, H) от узла E к узлу H, а вес (т.е. связь прочность) устанавливается как условная вероятность P(H|E) для представления, как показано на следующем рисунке:

Короче говоря, байесовская сеть формируется путем независимого рисования случайных величин, участвующих в исследовательской системе, в ориентированном графе в зависимости от того, выполняются ли условия. Он в основном используется для описания условных зависимостей между случайными величинами, где кружки представляют случайные величины, а стрелки — условные зависимости.

Кроме того, для любой случайной величины ее совместная вероятность может быть получена путем перемножения соответствующих локальных условных распределений вероятностей:

P(x_1,...,x_k)=P(x_k|x_1,...,x_{k-1})...P(x_2|x_1)P(x_1)

2.4.1 Структурная форма байесовской сети

1. head-to-head

Согласно приведенному выше рисунку, так что: P(a,b,c) = P(a)*P(b)*P(c|a,b) устанавливается, то есть при условии, что c неизвестно , a и b заблокированы (заблокированы), является независимым, называется лобовой условной независимостью.

2. tail-to-tail

Учтите, что с неизвестно, а с известно в этих двух случаях:

  1. Когда c неизвестно, существуют: P(a,b,c)=P(c)*P(a|c)*P(b|c), в это время P(a,b) = P(a )P(b), то есть когда c неизвестно, a и b не являются независимыми.
  2. Когда c известно, существуют: P(a,b|c)=P(a,b,c)/P(c), тогда P(a,b,c)=P(c)*P( |c)*P(b|c) в формулу, чтобы получить: P(a,b|c)=P(a,b,c)/P(c) = P(c)*P(a |c) *P(b|c) / P(c) = P(a|c)*P(b|c), то есть, когда c известно, a и b независимы.

3. head-to-tail

Есть два случая, когда с неизвестно, а с известно:

  1. Когда c неизвестно, существуют: P(a,b,c)=P(a)*P(c|a)*P(b|c), но нельзя вывести, что P(a,b) = P (a)P( b), то есть когда c неизвестно, a и b не являются независимыми.

  2. Когда c известно, существуют: P(a,b|c)=P(a,b,c)/P(c), и согласно P(a,c) = P(a)*P(c| а) = P(c)*P(a|c), что можно упростить, чтобы получить:

    P(a,b|c)

    =?P(a,b,c)/P(c)?

    =?P(a)*P(c|a)*P(b|c) / P(c)?

    =?P(a,c)*P(b|c)/P(c)?

    =?P(a|c)*P(b|c)?

    Следовательно, при условиях, заданных c, a и b заблокированы и независимы, что называется полной условной независимостью.

    Эта «голова к хвосту» на самом деле является цепной сетью, как показано на следующем рисунке:

    Согласно предыдущему объяснению прямого распределения мы уже знаем, что при заданных условиях xi распределение xi+1 условно не зависит от x1, x2...xi-1. Что это означает? Это означает: состояние распределения xi+1 связано только с xi и условно не зависит от других переменных. С точки зрения непрофессионала, текущее состояние связано только с предыдущим состоянием и не имеет ничего общего с предыдущим состоянием. Этот случайный процесс последовательной эволюции называетсяЦепь Маркова(цепь Маркова). Мы подробно обсудим цепь Маркова в следующем разделе.

2.4.2 Факторные графики

Википедия определяет граф факторов следующим образом: факторизуем глобальную функцию с несколькими переменными, чтобы получить произведение нескольких локальных функций, а двунаправленный граф, полученный на основе этого, называется графом факторов (Factor Graph).

С точки зрения непрофессионала, так называемый граф факторов получается путем факторизации функции.карта вероятностей. Обычно существует два типа узлов: узлы-переменные и узлы-функции. Мы знаем, что глобальную функцию можно разложить на произведение нескольких локальных функций с помощью факторизации, и связь между этими локальными функциями и соответствующими переменными отражается на графе факторов.

Например, теперь есть глобальная функция, уравнение факторизации которой имеет вид:

g(x_1,x_2,x_3,x_4,x_5)=f_A(x_1)f_B(x_2)f_C(x1,x2,x3)f_D(x_3,x_4)f_E(x_3,x_5)

Среди них fA, fB, fC, fD и fE — это функции, которые представляют отношения между переменными, которые могут быть условной вероятностью или другими отношениями. Соответствующий граф факторов:

Нахождение предельного распределения переменной является распространенной проблемой в графах вероятностей. Есть много способов решить эту проблему, один из которых состоит в том, чтобы преобразовать байесовскую сеть или марковское случайное поле в граф факторов и решить его с помощью алгоритма сумма-произведение. Другими словами, на основе графов факторов можно использоватьалгоритм суммы-произведенияЭффективно найти предельное распределение каждой переменной.

Подробный процесс алгоритма суммы-произведения можно найти в блоге:От байесовских методов к байесовским сетям

2.5 Наивный Байес

Наивный байесовский алгоритм — один из классических алгоритмов машинного обучения и один из немногих алгоритмов классификации, основанных на теории вероятностей. Принцип наивного Байеса прост и легок в реализации и в основном используется для классификации текста, например, для фильтрации спама. **Наивный байесовский подход можно рассматривать как частный случай байесовских сетей: то есть в сети нет ребер, и каждый узел независим. **

Где наивный байесовский наив? ——два предположения:

  • Вероятность появления признака не зависит от других признаков (условий);
  • Каждая функция одинаково важна.

Формула Байеса выглядит следующим образом:

P(A|B)=\frac{P(B|A)P(A)}{P(B)}=P(类别|特征)=\frac{P(特征|类别)P(类别)}{P(特征)}

Ниже приведен пример для объяснения Наивного Байеса с учетом следующих данных:

Теперь вопрос для нас заключается в том, что если пара парня и девушки, мальчик хочет сделать предложение девушке, четыре характеристики мальчика: непривлекательный, плохой характер, низкий рост, отсутствие мотивации, пожалуйста, рассудите, должна ли девушка выйти замуж. или нет?

Это типичная проблема классификации. Превращение ее в математическую задачу состоит в том, чтобы сравнить p(выйти замуж|(не красивый, плохой характер, низкий рост, немотивированный)) и p(не жениться|(некрасивый, плохой характер, низкий рост, Вероятность немотивированности )) у кого вероятность выше, могу дать ответ жениться или не жениться! Здесь мы связаны с формулой Наивного Байеса:

P(嫁|不帅,性格不好,矮,不上进)=\frac{P(不帅,性格不好,矮,不上进|嫁)P(嫁)}{P(不帅,性格不好,矮,不上进)}

Нам нужно найти p(брак|(не красивый, плохой характер, низкий рост, немотивированный), который мы не знаем, но его можно преобразовать в три величины, которые легко найти с помощью формулы Наивного Байеса, эти три переменные могут быть получены статистическими методами.

Подождите, почему это установлено? Студенты, изучавшие теорию вероятностей, могут подумать, что условия для построения этого уравнения требуют, чтобы признаки были независимы друг от друга! правильный! Вот почему наивная байесовская классификация имеет происхождение слова наивный, Наивный байесовский алгоритм предполагает, что каждая функция независима друг от друга, тогда это уравнение установлено!

Но почему вам нужно предполагать, что функции не зависят друг от друга?

  1. Мы думаем так, если нет такого предположения, то наша оценка этих вероятностей в правой части фактически невозможна Таким образом, наш пример имеет 4 характеристики, среди которых красивый включает {красивый, не красивый}, личность включает { нехорошо, хорошо, разрывно хорошо}, высота включает {высокий, короткий, средний}, а прогрессивный включает {непрогрессивный, прогрессивный}, то совместное распределение вероятностей четырех признаков представляет собой общее 4-мерное пространство, а общее номер 233*2=36.

    36, статистика компьютерного сканирования в порядке, но в реальной жизни часто бывает много признаков, и каждый признак имеет много значений, поэтому становится практически невозможно оценить значение вероятности следующего через статистику, что также является причинами, почему вам нужно предположить независимость между функциями.

  2. Если не считать, что признаки независимы друг от друга, то при подсчете нужно найти их во всем пространстве признаков.При условии брака искать количество людей, отвечающих всем четырем признакам: некрасивые ,плохая личность,невысокий и немотивированный.В этом случае из-за разреженности данных легко посчитать ситуацию 0. Это неуместно.

В соответствии с двумя вышеуказанными причинами наивный байесовский метод делает предположение об условной независимости для условного распределения вероятностей.Поскольку это сильное предположение, наивный байесовский метод также назван в его честь! Это предположение делает наивную байесовскую модель простой, но иногда жертвует определенной точностью классификации.

Преимущества наивного Байеса:

  • Логика алгоритма проста и легка в реализации (идея алгоритма очень проста, просто используйте формулу Байеса для преобразования!)
  • Небольшие пространственно-временные накладные расходы в процессе классификации (при условии, что признаки независимы друг от друга, задействовано только двумерное хранилище)

Недостатки наивного байесовского метода:

Теоретически наивная байесовская модель имеет наименьшую частоту ошибок по сравнению с другими методами классификации. Но на практике это не всегда так, потому что в наивной байесовской модели предполагается, что атрибуты независимы друг от друга. Это допущение часто не устанавливается в практических приложениях. Когда число атрибутов велико или корреляция между атрибутами мала большой, эффект классификации не очень хороший.

**Наивное (Наивное) значение Наивной байесовской модели (Наивной байесовской модели) «очень просто и наивно» предполагать, что признаки выборки независимы друг от друга. Это предположение в принципе не существует в реальности, но корреляция признаков очень мала Есть еще много практических ситуаций, так что эта модель все еще может работать очень хорошо.

3. Некоторые задачи на основе Байеса

  1. Объясните априорную вероятность, оценку правдоподобия и оценку предельного правдоподобия в алгоритме наивного Байеса?
    • **Априорная вероятность:** – это доля зависимой переменной (дихотомии) в наборе данных. Это самое близкое предположение, которое вы можете сделать о классификации, когда у вас нет никакой дополнительной информации.
    • **Оценка правдоподобия: **Оценка правдоподобия — это вероятность того, что наблюдение классифицируется как 1 при наличии некоторых других переменных. Например, вероятность того, что слово «БЕСПЛАТНО» использовалось в предыдущих письмах со спамом, является оценкой правдоподобия.
    • **Оценка предельного правдоподобия:** Оценка предельного правдоподобия — это вероятность того, что слово «БЕСПЛАТНО» используется в любом сообщении.

4. Разница между генеративными моделями и дискриминационными моделями

  • дискриминантная модель(дискриминационная модель) Предсказать y, решив условное распределение вероятностей P(y|x) или непосредственно вычислив значение y.

    Линейная регрессия, логистическая регрессия, машина опорных векторов (SVM), традиционные нейронные сети, линейный дискриминационный анализ, условное случайное поле

  • генеративная модель(генеративная модель) Цель оценки и оценки y достигается путем вычисления совместного распределения вероятностей P(x, y) наблюдаемого значения и помеченных данных.

    Наивный Байес, скрытые марковские модели (HMM), байесовские сети и скрытое распределение Дирихле, смешанные модели Гаусса

5. Реализация кода

Категория новостей GitHub:нажмите, чтобы войти

6. Ссылки

От байесовских методов к байесовским сетям

автор:@mantchs

Гитхаб:GitHub.com/NLP-love/ml…

Приглашаются все желающие присоединиться к обсуждению! Улучшайте этот проект вместе! Номер группы: [541954936]NLP面试学习群