напиши первым
Наивный байесовский классификатор на самом деле является совершенством алгоритма, основанного на здравом смысле. Он использует более точную количественную оценку для оценки классификации, а используемый метод - это апостериорная вероятность. Эта статья начинается со сравнения с деревом решений, вводит взаимосвязь между априорной вероятностью и апостериорной вероятностью, а затем подробно знакомит с процессом алгоритма наивного Байеса.
Алгоритм наивного Байеса относительно прост, поэтому эта статья в основном предназначена для ознакомления перед собеседованием. Ключевым моментом является прояснение взаимосвязи между различными вопросами.
Сравнение с деревьями решений
Изучив классический алгоритм дерева решений, мы можем прийти к такому пониманию: особенность дерева решений в том, что оно всегда разбивается по признакам. По мере продвижения слоев это деление будет становиться все тоньше и тоньше. Примерно так:
Друзья, которые мало что знают о деревьях решений, могут прочитать мою статью«Классический алгоритм дерева решений»Сегодня я опираюсь на это, представляя базовый подход к реализации решений в вероятностной структуре. Точно так же это соответствует и нашему человеческому эмпирическому мышлению. Это байесовский классификатор. По сравнению с деревом решений его классификация выглядит следующим образом:
Переплетение синего и красного здесь представляет размер вероятности. Название байесовского классификатора очень высокое, но принцип, лежащий в его основе, очень прост. Это выбор, к какой категории мы хотим отнести человека в соответствии с вероятностью.
Таким образом мы можем понять байесовские классификаторы. Вероятность свежих дынь из арбузных лоз равна 0,7.Если мы посмотрим только на дыни и лозы, мы будем судить дыни со свежими дынями как дыни. Введем вторую характеристику текстуры арбуза, предполагая, что вероятность наличия дыни с аккуратной текстурой равна 0,8. В это время нам нужно рассчитать вероятность сладости дыни со свежими лозами дыни и аккуратной текстурой, например, 0,9 (почему она больше, чем первые две вероятности, вы можете подумать об этом), чтобы, когда мы видим две характеристики текстуры и дынной лозы, мы будем судить, сладкая дыня или нет.
Здесь мы можем сравнить дерево решений классификации. Друзья, которые мало что знают о деревьях решений, могут прочитать мою статью«Классический алгоритм дерева решений»По сравнению с деревом решений, которое напрямую преобразует вероятность свежих дынь и лоз в свежие дыни и лозы, мы оцениваем дыни как сладкие, наш байесовский алгоритм обладает вероятностной отказоустойчивостью, что делает результаты более точными и надежными. Однако байесовский классификатор предъявляет более высокие требования к данным, чем дерево решений, и ему нужна модель, которую легче объяснить и которая имеет меньшую корреляцию между различными измерениями. Мы подробно упомянем об этом позже.
Априорные и апостериорные вероятности
Давайте посмотрим на формулу Байеса:
- апостериорная вероятность
- Априорная вероятность обычно дается людьми субъективно. Априорная вероятность в байесовском подходе обычно относится конкретно к нему.
- Условная вероятность, также известная как вероятность правдоподобия, обычно получается с помощью статистики исторических данных. Обычно ее не называют априорной вероятностью, но она также по определению соответствует априорному определению.
- На самом деле это тоже априорная вероятность, но во многих приложениях Байеса она не важна (поскольку максимум апостериорной вероятности не ищет абсолютное значение), при необходимости она часто вычисляется по формуле полной вероятности.
Можно видеть, что априорная вероятность, апостериорная вероятность и вероятность правдоподобия тесно связаны. Стоит отметить, что порядок A и B связан с этим априором. A и B меняются местами, и априорное и апостериорное также необходимо поменять местами. Например: Если на столе есть кусок мяса и бутылка уксуса, если вы едите кусок мяса и думаете, что он кислый, каковы шансы, что вы думаете, что в мясо добавлен уксус?
Для этой задачи вероятность того, что в мясо добавлен уксус при условии, что оно кислое на вкус, является апостериорной вероятностью. Вероятность того, что мясо будет кислым на вкус при добавлении уксуса, является вероятностной вероятностью, а вероятность того, что в мясе есть уксус, и вероятностью того, что оно будет кислым, является априорной вероятностью.
Подводя итог, можно сказать, что событие А является следствием причины, а событие Б — одной из причин. Мясо, которое мы здесь едим, кислое, что является результатом различных причин, и уксус в мясе является одной из многих причин этого результата. Почему именно из них, ведь помимо уксуса кладут, еще возможно, что мясо испортилось и так далее.
Алгоритм наивной байесовской классификации
Давайте сначала объясним алгоритм наивной байесовской классификации на классическом примере. Изучите наивный байесовский классификатор из данных в таблице ниже и определитеw тег класса, в таблице,является функцией, а набор значений, ,отметить класс,
На данный момент мы имеем для данногоЕго можно рассчитать следующим образом:
видимыйАпостериорная вероятность выше. так
Из приведенных выше примеров мы обнаружим, что метод Наивного Байеса на самом деле является обычной практикой.Лаплас однажды сказал, что теория вероятностей должна выражать здравый смысл людей с помощью математических формул. Далее мы рассмотрим математическое выражение наиболее полного алгоритма наивной байесовской классификации.
Наивный байесовский алгоритм
Наивное значение относится к предположению об условной независимости условных распределений вероятностей. Алгоритм Наивного Байеса фактически изучает механизм генерации данных, который принадлежитгенеративная модель. Предположение об условной независимости эквивалентно утверждению, что признаки, используемые для классификации, условно независимы при условии, что класс определен.
входить: обучающие данные,в,первыйпервый из образцовОсобенности,,первыйпервое возможное количество признаковценность,, , прецедент;
вывод: тестовый экземплярКлассификация
- Вычислить априорные и условные вероятности
- для данного экземпляра,рассчитать
- определить экземпляртип