1. Концепция байесовского классификатора
Байесовский классификатор — это классификатор с наименьшей вероятностью ошибки классификации или наименьшим средним риском в случае заданной стоимости среди различных классификаторов. Его метод проектирования является одним из самых основных методов статистической классификации. Принцип классификации заключается в использовании формулы Байеса для вычисления апостериорной вероятности объекта через априорную вероятность объекта, то есть вероятности принадлежности объекта к определенному классу, и выборе класса с наибольшей апостериорной вероятностью в качестве класс, к которому относится объект.
Преимущества байесовского классификатора: простота и легкость понимания, высокая эффективность обучения, малые объемно-временные затраты в процессе классификации.
Недостатки байесовского классификатора: алгоритм основан на независимости между независимыми переменными (условная независимость признаков) и предположении о нормальности непрерывных скаляров, что в некоторой степени может повлиять на точность алгоритма.
2. Родственные понятия
В этом разделе в основном представлены некоторые соответствующие вероятности, которые будут использоваться при изучении байесовских классификаторов для лучшего понимания.
2.1 Априорная вероятность
Определение: Вероятность, основанная на прошлом опыте и анализе (в нашем понимании).Характеристики данных неизвестнывероятность, полученная из прошлого опыта).
Например: Предположим, мы ничего не знаем о цвете, текстуре, корнях и других характеристиках арбузов, когда покупаем арбузы.Согласно здравому смыслу, вероятность того, что арбузы хорошие дыни, составляет 60%. Отсюда можно сделать вывод, что вероятность Р (хорошая дыня) называется априорной вероятностью.
2.2 Апостериорная вероятность
определение:в условиях, которые уже произошли, требуя, чтобы причиной возникновения события была вероятность (аналогично условной вероятности), вызванная фактором.
Пример: предположим, мы уже знаем свойство текстуры, чтобы судить о том, хорош арбуз или плох. 75% арбузов имеют прозрачную текстуру. Если мы используем текстуру арбуза, чтобы сделать вывод, хороший арбуз или плохой, то P (хорошая дыня | четкая текстура) называется апостериорной вероятностью.
2.3 Совместная вероятность
Определение: пусть двумерная дискретная случайная величинавсе возможные значения,Помнитесказать— совместная вероятность случайных величин X и Y.
Расчет следующий:P{X=i,Y=j}=P{Y=j|X=i}P{X=i}, i=1,2,3,...,j
Например: В приведенном выше случае покупки арбузов P (хорошая дыня, чистая текстура) является совместным распределением, что означает вероятность того, что эта дыня имеет четкую текстуру и хорошую дыню. Его совместная вероятность должна удовлетворять следующей формуле.
2.4 Формула полной вероятности
Если события A1, A2, ... образуют полную группу событий и все имеют положительную вероятность, то для любого события B справедлива следующая формула: P(B)=P(BA1)+P(BA2)+...+ P (BAn)=P(B|A1)P(A1) + P(B|A2)P(A2) + ... + P(B|An)P(An) , эта формула является формулой полной вероятности. (Если вычислить P(B) напрямую сложно, а вычисление P(Ai), P(B|Ai), i=1, 2, ... относительно просто, можно использовать формулу полной вероятности для вычислить P(B))
Пример: в приведенном выше примере покупки арбуза с концепцией совместной вероятности, когда мы хотим рассчитать совместную вероятность P (хорошая дыня, чистая текстура), нам нужно знать вероятность P (чистая текстура). Итак, как рассчитать вероятность четкой текстуры? На самом деле его можно разделить на два случая: один — это вероятность чистой текстуры в хорошем состоянии дыни, а другой — вероятность чистой текстуры в плохом состоянии дыни. Вероятность четкой текстуры является суммой этих двух случаев. Таким образом, мы можем вывести формулу полной вероятности:
2.5 Теорема Байеса
Теорема Байеса — это теорема об условной вероятности (или предельной вероятности) случайных событий A и B. где P(A|B) — вероятность того, что произойдет A, если произойдет B, и его формула выглядит следующим образом.
Для каждого признака X мы хотим знать, к какому классу принадлежит образец по этому признаку X, то есть найти метку класса с наибольшей апостериорной вероятностью P(c|x). Таким образом, исходя из формулы Байеса, мы можем получить:
Ниже мы организуем вышеуказанные точки знаний на примере арбуза:
Есть два состояния арбуза: хорошая дыня и плохая дыня, вероятность 0,6 и 0,4 соответственно, причем вероятность чистой текстуры у хорошей дыни равна 0,8, а вероятность чистой текстуры у плохой дыни равна 0,4. Итак, я выбрал дыню с прозрачной текстурой, какова вероятность того, что дыня хорошая?
Очевидно, что это задача апостериорной вероятности, и мы можем прямо привести формулу:
Проанализируйте вероятности, которые появляются в формуле одну за другой:
Апостериорная вероятность: P (четкая текстура | хорошая дыня) = 0,8.
Априорная вероятность: P (хорошая дыня) = 0,6.
Апостериорная вероятность: P (четкая текстура | плохая дыня) = 0,4.
Априорная вероятность: P (плохая дыня) = 0,4.
Из значений, проанализированных выше, мы можем напрямую решить приведенное выше уравнение, и результат будет равен 0,75.
2. Наивный байесовский классификатор
Нетрудно обнаружить, что основная трудность при оценке апостериорной вероятности P(c|x) на основе байесовской формулы заключается в том, что классовая условная вероятность P(x|c) является совместной вероятностью всех признаков (т. е. x представляет несколько атрибутов) ), которые трудно оценить непосредственно на ограниченных обучающих выборках. Чтобы обойти это препятствие, наивный байесовский классификатор использует «предположение об условной независимости атрибутов»: для известных классов предполагается, что все атрибуты независимы друг от друга. Другими словами, предполагается, что каждый атрибут независимо влияет на результат классификации.
Шаги алгоритма наивного Байеса
- Пусть образец атрибута установлен x={x1,x2,...,xn}, где n — количество атрибутов, а xi — значение x для i-го атрибута.
- Разделите этот образец на определенный класс в наборе классов c, C={y1,y2,...,ym}.
- Вычислить апостериорную вероятность:
в. (каждая функция независима друг от друга)
рассчитать: Сначала найдите известный набор классификации категорий, в котором подсчитывается условная вероятность атрибута объекта в каждой категории, то есть для получения значения, которое мы хотим вычислить..
Примечание. Знаменатель приведенной выше формулы одинаков для всех категорий. Поэтому его можно опустить, для разных, нужно только сравнитьмолекулярная часть.
- если, то выборка принадлежит набору признаков x.
3. Пример наивной байесовской классификации
Продолжим на примере покупки арбуза. Теперь у нас есть набор данных с образцами 10. Этот набор данных характеризуется текстурой, цветом и звуком удара, чтобы судить, хорошая это дыня или плохая. Набор данных выглядит следующим образом:Среди них текстура делится на: четкую и нечеткую, цвет — на: зеленый и черный, звук стука — на: мутный, глухой и четкий. Различные комбинации собственных значений соответствуют двум категориям: хорошие дыни или плохие дыни.
Итак, я взял арбуз в супермаркете, и он прозрачный по текстуре, бирюзового цвета и тупой. Мы можем рассчитать, является ли арбуз хорошей или плохой дыней, на основе выборочного набора данных и алгоритма наивного Байеса.
(1) Сначала вычислите положение дыни:
Априорная вероятность: P (хорошая дыня) = 6/10 = 0,6.
Условная вероятность: P (чистая текстура|хорошая дыня)=4/6=2/3
Условная вероятность: P (зеленый цвет | хорошая дыня) = 4/6 = 2/3
Условная вероятность: P (глухой звук | хорошая дыня) = 2/6 = 1/3
Рассчитайте апостериорную вероятность P (хорошая дыня | чистая текстура, зеленый цвет, глухой стук) молекулярная часть:
P(хорошая дыня) x P(четкая текстура|хорошая дыня) x P(зеленый цвет|хорошая дыня) x P(глухой звук|хорошая дыня) = 0,6 × (2/3) × (2/3) × (1/ 3) = 4/45.
(2) Затем рассчитайте ситуацию с плохими дынями:
Априорная вероятность: P (плохая дыня) = 4/10 = 0,4.
Условная вероятность: P(чистая текстура|плохая дыня) =1/4=0,25
Условная вероятность: P (зеленый цвет | плохая дыня) = 1/4 = 0,25.
Условная вероятность: P (глухой звук | плохая дыня) = 1/4 = 0,25
Рассчитайте апостериорную вероятность P (плохая дыня | чистая текстура, зеленый цвет, глухой стук) молекулярная часть:
P(плохая дыня) × P(прозрачная текстура|плохая дыня) × P(зеленый цвет|плохая дыня) × P(глухой звук стука|плохая дыня) = 0,4 × 0,25 × 0,25 × 0,25 = 1/160.
(3) Сравните апостериорные вероятности в категориях хороших и плохих дынь:
P (хорошая дыня | чистая текстура, сине-зеленый цвет, глухой стук) > P (плохая дыня | чистая текстура, сине-зеленый цвет, глухой стук), то есть 4/45 > 1/160, так что это Предсказал, что текстура четкая, цвет сине-зеленый, Стук тусклый арбуз - хорошая дыня.
4. Пункты о Наивном Байесе, которые легко игнорировать
- Как видно из вышеизложенного, вычисляется условная вероятность каждого разделаЭто ключевой шаг в наивной байесовской классификации.Когда атрибуты признаков представляют собой дискретные значения, очень удобно подсчитывать частоту каждого деления в каждой категории в обучающей выборке, которую можно использовать для оценкиКогда атрибут объекта является непрерывным значением, обычно предполагается, что его значение соответствует распределению Гаусса (также известному как нормальное распределение). Следовательно, пока рассчитаны среднее значение и стандартное отклонение разделения элементов признаков в каждой категории в обучающей выборке, требуемое оценочное значение может быть получено путем подстановки его в приведенную выше формулу.
- Еще один вопрос, требующий обсуждения, — когдаЧто делать, когда не появляется деление определенного признака на определенную категорию, возникает такое явление, которое сильно снижает качество классификатора. Чтобы решить эту проблему, мы вводим калибровку Лапласа, Его идея очень проста: добавить 1 к подсчету всех подразделений в каждой категории, так что, если количество наборов обучающих выборок достаточно велико, это не повлияет результаты и решить проблему Неловкая ситуация, когда вышеуказанная частота равна 0.