Спасение перед интервью - Наивный байесовский классификатор

алгоритм
Спасение перед интервью - Наивный байесовский классификатор

напиши первым

Наивный байесовский классификатор на самом деле является совершенством алгоритма, основанного на здравом смысле. Он использует более точную количественную оценку для оценки классификации, а используемый метод - это апостериорная вероятность. Эта статья начинается со сравнения с деревом решений, вводит взаимосвязь между априорной вероятностью и апостериорной вероятностью, а затем подробно знакомит с процессом алгоритма наивного Байеса.

Алгоритм наивного Байеса относительно прост, поэтому эта статья в основном предназначена для ознакомления перед собеседованием. Ключевым моментом является прояснение взаимосвязи между различными вопросами.

Сравнение с деревьями решений

Изучив классический алгоритм дерева решений, мы можем прийти к такому пониманию: особенность дерева решений в том, что оно всегда разбивается по признакам. По мере продвижения слоев это деление будет становиться все тоньше и тоньше. Примерно так:

分类决策树的划分策略
Друзья, которые мало что знают о деревьях решений, могут прочитать мою статью«Классический алгоритм дерева решений»

Сегодня я опираюсь на это, представляя базовый подход к реализации решений в вероятностной структуре. Точно так же это соответствует и нашему человеческому эмпирическому мышлению. Это байесовский классификатор. По сравнению с деревом решений его классификация выглядит следующим образом:

贝叶斯分类器的划分策略

Переплетение синего и красного здесь представляет размер вероятности. Название байесовского классификатора очень высокое, но принцип, лежащий в его основе, очень прост. Это выбор, к какой категории мы хотим отнести человека в соответствии с вероятностью.

Таким образом мы можем понять байесовские классификаторы. Вероятность свежих дынь из арбузных лоз равна 0,7.Если мы посмотрим только на дыни и лозы, мы будем судить дыни со свежими дынями как дыни. Введем вторую характеристику текстуры арбуза, предполагая, что вероятность наличия дыни с аккуратной текстурой равна 0,8. В это время нам нужно рассчитать вероятность сладости дыни со свежими лозами дыни и аккуратной текстурой, например, 0,9 (почему она больше, чем первые две вероятности, вы можете подумать об этом), чтобы, когда мы видим две характеристики текстуры и дынной лозы, мы будем судить, сладкая дыня или нет.

Здесь мы можем сравнить дерево решений классификации. Друзья, которые мало что знают о деревьях решений, могут прочитать мою статью«Классический алгоритм дерева решений»По сравнению с деревом решений, которое напрямую преобразует вероятность свежих дынь и лоз в свежие дыни и лозы, мы оцениваем дыни как сладкие, наш байесовский алгоритм обладает вероятностной отказоустойчивостью, что делает результаты более точными и надежными. Однако байесовский классификатор предъявляет более высокие требования к данным, чем дерево решений, и ему нужна модель, которую легче объяснить и которая имеет меньшую корреляцию между различными измерениями. Мы подробно упомянем об этом позже.

Априорные и апостериорные вероятности

Давайте посмотрим на формулу Байеса:

P(B|A)= \frac{P(A|B) \centerdot P(B)}{P(A)}
  1. P(B|A)апостериорная вероятность
  2. P(B)Априорная вероятность обычно дается людьми субъективно. Априорная вероятность в байесовском подходе обычно относится конкретно к нему.
  3. P(A|B)Условная вероятность, также известная как вероятность правдоподобия, обычно получается с помощью статистики исторических данных. Обычно ее не называют априорной вероятностью, но она также по определению соответствует априорному определению.
  4. P(A)На самом деле это тоже априорная вероятность, но во многих приложениях Байеса она не важна (поскольку максимум апостериорной вероятности не ищет абсолютное значение), при необходимости она часто вычисляется по формуле полной вероятности.

Можно видеть, что априорная вероятность, апостериорная вероятность и вероятность правдоподобия тесно связаны. Стоит отметить, что порядок A и B связан с этим априором. A и B меняются местами, и априорное и апостериорное также необходимо поменять местами. Например: Если на столе есть кусок мяса и бутылка уксуса, если вы едите кусок мяса и думаете, что он кислый, каковы шансы, что вы думаете, что в мясо добавлен уксус?

Для этой задачи вероятность того, что в мясо добавлен уксус при условии, что оно кислое на вкус, является апостериорной вероятностью. Вероятность того, что мясо будет кислым на вкус при добавлении уксуса, является вероятностной вероятностью, а вероятность того, что в мясе есть уксус, и вероятностью того, что оно будет кислым, является априорной вероятностью.

Подводя итог, можно сказать, что событие А является следствием причины, а событие Б — одной из причин. Мясо, которое мы здесь едим, кислое, что является результатом различных причин, и уксус в мясе является одной из многих причин этого результата. Почему именно из них, ведь помимо уксуса кладут, еще возможно, что мясо испортилось и так далее.

Алгоритм наивной байесовской классификации

Давайте сначала объясним алгоритм наивной байесовской классификации на классическом примере. Изучите наивный байесовский классификатор из данных в таблице ниже и определитеx=(2,S)^Tw тег классаy, в таблицеX^{(1)},X^{(2)}является функцией, а набор значенийA_1={(1,2,3)}, A_2={(S,M,L)},Yотметить класс,Y\in C = (-1,1)

На данный момент мы имеем для данногоx= (2,S)^TЕго можно рассчитать следующим образом:

P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1) = \frac{9}{15} \centerdot \frac{3}{9} \centerdot \frac{1}{9} = \frac{1}{45}
P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1) = \frac{6}{15} \centerdot \frac{2}{6} \centerdot \frac{3}{6} = \frac{1}{15}

видимыйP(Y=-1)Апостериорная вероятность выше. такy=-1

Из приведенных выше примеров мы обнаружим, что метод Наивного Байеса на самом деле является обычной практикой.Лаплас однажды сказал, что теория вероятностей должна выражать здравый смысл людей с помощью математических формул. Далее мы рассмотрим математическое выражение наиболее полного алгоритма наивной байесовской классификации.

Наивный байесовский алгоритм

Наивное значение относится к предположению об условной независимости условных распределений вероятностей. Алгоритм Наивного Байеса фактически изучает механизм генерации данных, который принадлежитгенеративная модель. Предположение об условной независимости эквивалентно утверждению, что признаки, используемые для классификации, условно независимы при условии, что класс определен.

входить: обучающие данныеT=\lbrace(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\rbracex_i=(x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T,x_i^{(j)}первыйiпервый из образцовjОсобенности,x_i^{(j)} \in \lbrace \alpha_{j1}, \alpha_{j2},..., \alpha_{js_j} \rbrace,\alpha_{jl}первыйjпервое возможное количество признаковlценность,j=1,2,...S_j, y_i \in \lbrace c_1, c_2,..., c_K \rbrace, прецедентx;

вывод: тестовый экземплярxКлассификация

  1. Вычислить априорные и условные вероятности
P(Y=c_k) = \frac{\sum_{i=1}^n  I(y_i=c_k) }{N}, k=1,2,...,K
P(X^{(j)}=a_{jl}|Y=c_k) = \frac{\sum_{i=1 }^n I(X^{(j)}=a_{jl},y_i=c_k)}{\sum_{i=1}^n I(y_i=c_k)}
j=1,2,...,n; l= 1,2,...,S;  k = 1,2,...,K
  1. для данного экземпляраx= (x_{(1)},x_{(2)},...,x_{(n)})^T,рассчитать
P(Y=c_k) \prod_{j=1}^n P(X_{j}= x_{(j)}|Y=c_k), k=1,2,...,K
  1. определить экземплярxтип
y= arg \max_{c_k} \prod_{j=1}^n P(X_{j}= x_{(j)}|Y=c_k)