Персональный сайт Red Stone:redstonewill.com
Говоря о Наивном Байесе, многие люди будут сбиты с толку его сложными формулами и запутанными понятиями. В этой статье я буду использовать наиболее распространенный язык, чтобы свести к минимуму использование сложных формул, объяснить принципы наивного байесовского алгоритма на простом языке и использовать наивные байесовские идеи для решения задач машинного обучения на практических примерах. Позвольте вам быстро получить интуитивное и яркое понимание Наивного Байеса.
1. Проблема покупки дынь
Во-первых, мы хотим ввести два математических понятия:Априорная вероятность,Апостериорная вероятность. У тебя снова будет кружиться голова? Ничего страшного, мы воспользуемся примером, чтобы помочь вам понять эти две вероятности.
В последнее время стояла жаркая погода, и Красный Камень пришел в супермаркет, чтобы купить арбуз, но у него не было большого опыта и он не знал, как выбрать спелую дыню. В настоящее время, будучи студентом-естественником, Red Stone придерживается следующих соображений:
Если я ничего не знаю об этом арбузе, в том числе о цвете, форме дыни, не отвалилась ли дыня. По здравому смыслу вероятность созревания арбуза составляет около 60%. Тогда эта вероятность P (дыня созрела) называется априорной вероятностью.
Другими словами, априорная вероятность — это вероятность, полученная на основе прошлого опыта и анализа, а априорная вероятность не требует выборочных данных и не зависит от каких-либо условий. Точно так же, как красный камень судит о том, созрел арбуз или нет, основываясь только на здравом смысле, а не на состоянии арбуза, это априорная вероятность.
Посмотрим еще раз, Красный Камень научился здравому смыслу судить, созрел арбуз или нет, то есть видеть, не отвалится ли гуати. Вообще говоря, когда дыни опадают, арбуз имеет более высокую вероятность созревания, около 75%. Если взять в качестве результата осыпание дыни, а затем предположить вероятность того, что арбуз созреет, то эта вероятность P(спелая дыня | осыпание дыни) называется апостериорной вероятностью. Апостериорная вероятность аналогична условной вероятности.
Зная априорную вероятность и апостериорную вероятность, давайте посмотрим, чтосовместная вероятность. В примере с покупкой арбуза с красной косточкой P (дыня созрела и дыня падает) называется совместным распределением, которое представляет вероятность того, что дыня созрела и дыня падает. Что касается совместной вероятности, выполняется следующее уравнение умножения:
Среди них P (дыня созрела | дыня опадает) представляет собой только что введенную апостериорную вероятность, указывающую на вероятность «созревания дыни» при условии «опадания дыни». P (осыпание Гуади | созревание дыни) представляет вероятность «осыпания Гуади» при условии «созревания дыни».
Далее, как красный камень рассчитывает вероятность падения Гуати? На самом деле его можно разделить на два случая: один — вероятность падения дыни в спелом состоянии, а другой — вероятность падения дыни в сыром состоянии. Вероятность падения Guati является суммой этих двух условий. Следовательно, мы делаем выводполная вероятностьформула:
2. Судить о спелости дыни по одному признаку
Что ж, после введения априорной вероятности, апостериорной вероятности, совместной вероятности и полной вероятности, давайте рассмотрим эту задачу: состояние арбуза делится на два типа: спелый и незрелый, вероятности равны 0,6 и 0,4 соответственно, а внутри вероятность того, что гуади упадет, равна 0,8, а вероятность того, что гуади упадет в дыне, равна 0,4. Итак, если я сейчас соберу дыню с осыпающейся дыней, какова вероятность того, что дыня — хорошая дыня?
Очевидно, что это задача вычисления апостериорной вероятности.По выведенным выше формулам совместной вероятности и полной вероятности можно найти:
Посмотрите на это один за другим:
Условная вероятность P(падение дыни | созревание дыни) = 0,8
Априорная вероятность P(дыня созрела) = 0,6
Условная вероятность P(падение гуати | рост дыни) = 0,4
Априорная вероятность P(guasheng) = 0,4
Подставив вышеприведенные значения в приведенную выше формулу, получим:
Таким образом, мы подсчитали, что вероятность того, что дыня, упавшая с дыни, окажется хорошей, равна 0,75. Обратите внимание, что приведенная выше формула для расчета апостериорной вероятности использует теорему Байеса. Немного удивлен, да? Прежде чем вы это узнаете, можно сказать, что вы усвоили идею теоремы Байеса.
3. Несколько признаков для оценки спелости дыни
Для того, чтобы купить спелую дыню, проговаривается и красная косточка. Специально искал в сети. Определение того, созрела ли дыня, зависит не только от того, отвалилась ли дыня, но и от формы и цвета дыни. Формы круглые и заостренные, цвета темно-зеленый, светло-зеленый и голубой. Чтобы увидеть так много возможностей, а? Красный камень немного смущается, но ничего страшного, мы можем попытаться решить эту задачу, используя только что введенную идею теоремы Байеса.
Теперь функция изменилась с исходной 1 на текущую 3. Мы используем X для представления функции и Y для представления типа дыни (спелая или сырая). Тогда по теореме Байеса апостериорная вероятность P(Y=|Х=х) выражается как:
в,представляет категорию, а k - количество категорий. В этом примере k = 1, 2,
Показывает, что дыня созрела,
Указывает на дыню. Приведенная выше формула может показаться немного сложной, но на самом деле она согласуется с формой единственной функции в предыдущем разделе (независимо от того, отвалился ли Гуади).
Следует отметить, что функция X здесь больше не одна, а содержит 3 функции. Следовательно, условная вероятность P(X=x | Y=) предполагает, что условия независимы друг от друга, то есть предполагает, что различные признаки не зависят друг от друга. Таким образом, P(X=x | Y=
) можно записать так:
Среди них n — это количество функций, а j — текущая функция. Для этого примера P(X=x | Y=) можно записать так:
Это предположение об условной независимости является источником слова «наивный» в наивном байесовском методе. Это предположение делает наивную байесовскую модель простой, но иногда жертвует определенной точностью классификации.
Таким образом, используя наивное байесовское мышление, мы можем записать апостериорную вероятность как:
Разве не хорошо, что формул не так много? Не волнуйтесь, приведенная выше формула выглядит более сложной, но на самом деле признаки образца увеличены, а форма соответствует предыдущему разделу P (дыня созрела | дыня опала).
Теперь красный камень берет в руки арбуз, наблюдает за его тремя характеристиками, формой и цветом, и может вычислять отдельно в соответствии с приведенной выше формулой Наивного Байеса.(вареная дыня) и
Вероятность (гуашэн), т. е. P(Y=
| X=x) и P(Y=
|Х=х). Затем сравните P(Y=
| X=x) и P(Y=
|X=x) Размер значения:
Если P(Y= | X=x) > P(Y=
|х=х), то рассудите, что дыня созрела;
Если P(Y= | X=x) < P(Y=
|X=x), то считается, что дыня родилась.
Стоит отметить, что часть знаменателя в приведенной выше формуле для всехДескать, все равно. Поэтому знаменатель можно опустить, а разные
, сравнивая только P(Y=
|Х=х) может быть:
Хорошо! Red Stone, наконец, понимает, как использовать наивный байесовский метод, чтобы определить, созрела ли дыня.
4. Наивная байесовская классификация
Ред Стоун понял теорему Байеса и наивный метод Байеса, и теперь он может уверенно покупать дыни. Прежде чем покупать дыни, нужно сделать еще одну вещь — собрать данные для выборки. Red Stone получил набор данных, содержащий 10 групп образцов, посредством онлайн-информации и консультаций. Этот набор данных показывает, являются ли арбузы, соответствующие разным дыням, формам и цветам, сырыми или спелыми. Я беру этот набор данных как исторические эмпирические данные и использую их в качестве стандарта.
Среди них гуади подразделяют на обособленные и неотдельные, по форме — на круглые и заостренные, а по цвету — на темно-зеленые, светло-зеленые и голубые. Различные комбинации признаков соответствуют спелым или незрелым дыням.
Теперь красный камень сорвал арбуз, и его стебель отвалился, его форма круглая, а цвет голубой. В это время красный камень может полностью рассчитать апостериорную вероятность на основе выборочных данных и наивного метода Байеса.
Во-первых, для спелой дыни:
Априорная вероятность спелой дыни: P(спелая дыня) = 6/10 = 0,6.
Условная вероятность: P(Выпадение | Созревание) = 4/6 = 2/3.
Условная вероятность: P(круг | спелый) = 4/6 = 2/3.
Условная вероятность: P(голубой | спелый) = 2/6 = 1/3.
Вычислить часть числителя апостериорной вероятности:
P(спелая дыня) × P(упасть|спелая дыня) × P(круглая|спелая дыня) × P(зеленая|спелая дыня) = 0,6 × (2/3) × (2/3) × (1/3) = 4/45.
Затем, в случае сырой дыни:
Априорная вероятность дынь: P(guasheng) = 4/10 = 0,4.
Условная вероятность: P(линька | дыня) = 1/4 = 0,25.
Условная вероятность: P(круг | дыня) = 1/4 = 0,25.
Условная вероятность: P(голубой | дыня) = 1/4 = 0,25.
Вычислить часть числителя апостериорной вероятности:
P(дыня) × P(упасть | дыня) × P(круглый | дыня) × P(голубой | дыня) = 0,4 × 0,25 × 0,25 × 0,25 = 1/160.
Поскольку 4/45 > 1/160, предсказание состоит в том, что дыня созрела. Наконец расчет был закончен.Красный камень с уверенностью сказал, что арбуз отвалился от плодоножки, имеет круглую форму и синий цвет.Это должна быть спелая дыня.
Придя домой, я увидел, что дыня созрела.
5. Резюме
В этой статье используется опыт покупки арбуза с красными камнями, чтобы объяснить вам, что такое априорная вероятность и апостериорная вероятность, а также представить теорему Байеса и наивный метод Байеса. Наконец, наивный байесовский метод используется для выбора арбузов и оценки их зрелости. В этой статье объясняется основная идея и процесс классификации Наивного Байеса максимально доступным языком. Интересно, поможет ли вам опыт Red Stone по покупке дынь понять Наивного Байеса?