Байесовская теория

машинное обучение искусственный интеллект алгоритм обеспечить регресс

Пример — форвардная вероятность

Возьмем для анализа пример инспектора по качеству. Предположим, я инспектор по качеству и получил три коробки с деталями для проверки.В первой коробке 10 деталей, во второй коробке 20 деталей, а в третьей коробке 15 деталей. .Штука. Через полчаса пришли результаты проверки: в первом ящике один не сработал, во втором - три, в третьем - два.

коробка общее количество частей Не удалось
A 10 1
B 20 3
C 15 2

Теперь, если я случайным образом возьму деталь из этих трех ящиков, какова вероятность того, что эта часть соответствует требованиям? Мы предполагаем, что событие D: частично квалифицировано, тогда:

\begin{equation*} \begin{split} P(D)&=P(A)*P(D| A) + P(B) *P(D| B) + P(C)*P(D | C) \\ &=(1/3) * (9/10) + (1/3) * (17/20) + (1/3) * (13/15)  \\ &= 0.872 \end{split} \end{equation*}

Таким образом рассчитывается вероятность того, что деталь квалифицирована, но в области машинного обучения мы можем захотеть узнать больше о проблеме предоставления вам образца и к какой категории относится образец.Это также называется классификацией Проблема, связанная с проблемой обратной вероятности.

Обратная вероятность — наивная байесовская теория

Теперь предположим такой сценарий: вы получаете деталь, какой коробке принадлежит эта деталь? Эта проблема аналогична машинному обучению: дайте вам образец, этот образец имеет много функций, и модель машины выводит, к какой категории относится образец. Таким образом, мы понимаем байесовскую теорию.

Условная возможность

P(A|B) = \frac{P(AB)}{P(B)}

P(A|B)Вероятность того, что событие А произойдет при предположении, что произошло событие В, называется условной вероятностью события А при наступлении события В.P(AB)представляет вероятность одновременного возникновения события A и события B,P(B)Представляет вероятность того, что событие B произойдет, поэтому вычисление является условной вероятностью. Давайте продолжим думать о приведенном выше сценарии квалифицированных частей.Если мы знаем, что эта часть является квалифицированной, из какой из трех категорий A, B и C она происходит? Мы, конечно, не знаем, какая категория, потому что все три категории имеют квалифицированные части, но мы можем знать вероятность того, что эта квалифицированная часть происходит из каждой категории, то есть найтиP(A|D),P(B|D),P(C|D), где D представляет собой вероятность того, что деталь квалифицирована, известную условной вероятностью:

\begin{equation*} \begin{split} P(A|D) = \frac{P(A*D)}{P(D)} \\ P(B|D) = \frac{P(B*D)}{P(D)} \\ P(C|D) = \frac{P(C*D)}{P(D)}  \end{split} \end{equation*}

вP(D)было рассчитано выше,P(D)=0.872,P(A*D)Указывает на вероятность того, что эта деталь из коробки А и является подлинной, два условия независимы, поэтому мы рассчитываем как:

\begin{equation*} \begin{split} P(A*D) &=P(A)*P(D|A)\\ &= (1/3) * (9/10)  \\ &=0.3 \end{split} \end{equation*}

Затем мы можем рассчитать вероятность того, что подходящий предмет будет найден в каждой коробке:

\begin{equation*} \begin{split} P(A|D) &= \frac{P(A*D)}{P(D)} \\ &=0.3/0.872 \\ &=0.344 \\ \\ P(B|D) &= \frac{P(B*D)}{P(D)} \\ &=0.283 /0.872\\ &=0.324 \\ \\ P(C|D) &= \frac{P(C*D)}{P(D)} \\ &=0.289/0.872 \\ &=0.332 \end{split} \end{equation*}

Таким образом, известно, что квалифицированные детали с наибольшей вероятностью поступают из ящика А, потому что вероятность из ящика А самая высокая, достигая 0,344. Из этого примера мы можем вывести байесовскую теорию:

Предположим, что произошло событие А, и найдем вероятность того, что событие произошло из-за события А. Найдем обратную вероятность. Как это понимать? См. ниже: 1. Предположим, что условная вероятность того, что событие A вызовет событие D, равна:

P(D|A) = \frac{P(D*A)}{P(A)}

Итак? P(D*A)=P(D|A)*P(A)? 2. Теперь, когда произошло событие D, оно может быть вызвано событием A, оно может быть вызвано событием B или другими событиями.Мы хотим знать вероятность события A. Следовательно, событие D происходит из-за события A. Условная вероятность , формула выглядит следующим образом:

P(A|D) = \frac{P(D*A)}{P(D)}

на шаге 1P(D*A)=P(D|A)*P(A)Подставляем в эту формулу, заменяя числительP(D*A)получить:

P(A|D) = \frac{P(D|A)*P(A)}{P(D)}

Формула выводится, как указано выше.После двух вышеуказанных шагов мы можем получить окончательную байесовскую формулу:

P(A|D) = \frac{P(D|A)*P(A)}{P(D)}

Некоторые люди могут спросить: почему мы преобразуем формулу именно так? На самом деле в проекте вывода также используются две условные вероятности.Числитель двух формул условной вероятности точно такой же.Он используется для его замены.На самом деле это потому, что в нашей повседневной жизни нам легче знать результат, как будто с завязанными глазами.Возьмите случайную деталь из коробки, легко судить, квалифицированная деталь или нет, но как узнать, из какой коробки она пришла? Итак, наш вопрос звучит так:从三个箱子中拿出一个零件,这个零件是属于某一个箱子的概率,问题角度变了,我们不再关注它是合格还是不合格,合格或不合格很容易知道,但它属于哪个箱子就不容易知道,贝叶斯的提出就是解决这个问题.

Аналогия с машинным обучением

Хорошо, мы знаем байесовскую теорию, так как же меняется это мышление, когда оно соответствует области машинного обучения? Аналогия с машинным обучением:给你一条样本,这个样本的特征给出来了,每个特征的具体数值也给你了,现在请你告诉我它属于哪个类目?Разумеется, это должна быть тестовая выборка, так как в обучающей выборке каждая запись помечается результатом, то есть помечается меткой.В двухклассовой задаче, если выборка принадлежит классу А, она будет помечен 1, а если он не принадлежит к классу А, то будет помечен как 1. Пометка 0, формальное описание выглядит следующим образом:

Вход: тренировочный наборX_{train}=\{{x_1},{x_2},{x_3},...,{x_n}\}, тестовый наборX_{test}=\{{x_1},{x_2},{x_3},...,{x_m}\}вx_1=\{{t_1},{t_2},{t_3},...,{t_h}\}, каждая выборка имеет h признаков, а каждая выборка в обучающей выборке имеет еще однуlabelОбозначьте результаты.

Это более формальное описание, но оно более абстрактно. Мы можем понять это так. Дайте вам образец тестового набора. Каждое значение характеристики этого образца говорит вам, что эквивалентно тому, чтобы сказать вам, является ли часть квалифицированной или не.Квалифицированный, и тогда вы сможете мне сказать, к какой категории относится этот образец, т.е. 样本中的特征数值 就是上述箱子例子中零件合格这个结果, и поскольку обучающий набор имеет характеристические значения и каждая выборка имеет результаты категории, мы можем начать с обучающего набора и легко вычислить некоторые вероятности по байесовской формуле, Мы рассчитаем их в следующем разделе.

Байесовская теория в машинном обучении

Мы продолжаем внедрять байесовскую теорию в область машинного обучения и предполагаем следующие сценарии:

Фоновое состояние: тренировочный наборX_{train}=\{{x_1},{x_2},{x_3},...,{x_n}\}, результат классификацииC=\{C_1,C_2,...,C_i\}, каждый обучающий набор записывает результат классификации Ввод: дать вам образец тестового набораx_1=\{{t_1},{t_2},{t_3},...,{t_h}\}Вывод: укажите, к какой категории относится этот образец

Прежде всего, подумайте об общемiДля каждого результата классификации мы можем рассчитать вероятность того, что эта выборка принадлежит каждому результату классификации, и выбрать результат классификации с высокой вероятностью в качестве категории этой выборки, тогда мы знаем значение каждого признака для этой выборки, и мы думаем, что эти функции взяты из выбранных в обучающем наборе, каждый образец обучающего набора имеет результат классификации, поэтому мы сравниваем функцию как квалифицированную, тогда из какой категории происходит этот квалифицированный образец? Рассмотрим следующее:

1. Пример данныхx_1=\{{t_1},{t_2},{t_3},...,{t_h}\}, сначала проведите анализ признаков, мы предполагаем, что взятые признакиt_h, согласно байесовской теории мы знаем, чтоP(C_i|t_h)Формула определяется следующим образом:

P(C_i|t_h)= \frac{P(t_h|C_i)*P(C_i)}{P(t_h)}

2. Разбираем и анализируем формулу в 1:

  • (1) $P(t_h|C_i)$ представляет вероятность того, что $t_h$ появится в классификации $C_i$, мы можем использовать обучающий набор для расчета, поскольку в обучающем наборе есть значение этого признака, вы можете вычислить это значение признака появляется в $C_i $вероятностях в образцах категорий
  • (2) $P(C_i)$ представляет собой вероятность появления категории $C_i$, которая непосредственно вычисляет долю выборок категории $C_i$ в обучающей выборке по отношению к общему количеству выборок.
  • (3) $P(t_h)$ представляет собой вероятность появления признака $t_h$, и расчет аналогичен вероятности взятия квалифицированной части из коробки, Здесь вероятность извлечения значения этого признака из каждой категории

    С помощью вышеуказанных трех шагов можно рассчитать характеристикиt_hотносится к категорииC_iВероятность. Мы продолжаем обобщать, что образец записи имеет несколько функций, поэтому мы предполагаем:

    假设:样本中每个特征之间是互相独立、互不影响的。

    Это предположение важно, потому что далее мы хотим рассчитать вероятность того, что образец принадлежит к определенному классу.

    попрошайничествоP(C_i|x_i), по сделанному выше предположению каждый признак независим, то:

    (1)P(x|C_i)=P(t_1|C_i)*P(t_2|C_i)*P(t_3|C_i)...P(t_h|C_i)=\prod_{j=0}^hP(t_j|C_i)(2)P(x)=P(t_1)*P(t_2)*P(t_3)... P(t_h)=\prod_{j=0}^hP(t_j)такP(C_i|t_h)Формула:

    P(C_i|x)= \frac{P(x|C_i)*P(C_i)}{P(x)}= \frac{\prod_{j=0}^hP(t_j|C_i)*P(C_i)}{\prod_{j=0}^hP(t_j)}

    По формулеP(C_i|x), мы можем рассчитать:P(C_1|x)、P(C_1|x)、P(C_i|x)Вероятность равной классификации, сравнивая размер, мы можем узнать, к какой категории относится этот образец.Смысл в том, чтобы сравнить вероятность, поэтому нет необходимости вычислять молекулу при расчете, потому что молекулаP(x)Это то же самое для нескольких результатов классификации, поэтому вероятность молекулярного сравнения вычисляется напрямую.

    P(t_h|C_i)рассчитать

    Выше мы изучали классификацию выборок по байесовской теории, но в которойP(t_h|C_i)Существует проблема с вычислением : если все признаки являются дискретными значениями, достаточно непосредственно вычислить долю дискретных значений, но если признаки являются непрерывными значениями, вычислить их непросто, обычно когда атрибуты признаков непрерывные значения. Мы предполагаем, что его значения следуют распределению Гаусса (также называемому нормальным распределением). который:

    g(x,\sigma,\mu)=\frac{1}{\sqrt{{2\pi}}\times\sigma}e^{\frac{1}{2}(\frac{x-\mu}{\sigma})^2}
    P(t_h|C_i)=g(t_h,\sigma_{C_i},\mu_{C_i})

    Следовательно, пока вычисляются среднее значение и стандартное отклонение разделения элементов признаков в каждой категории в обучающем наборе, требуемое оценочное значение может быть получено путем замены приведенной выше формулы. Еще один вопрос, требующий обсуждения, — когдаP(t_h|C_i)=0Что делать, когда не появляется деление определенного признака на определенную категорию, возникает такое явление, которое сильно снижает качество классификатора. Чтобы решить эту проблему, мы вводим калибровку Лапласа, Его идея очень проста: добавить 1 к подсчету всех признаков в каждой категории, так что, если количество наборов обучающих выборок достаточно велико, это не повлияет результаты и решить проблему Неловкая ситуация, когда вышеуказанная частота равна 0.

    Суммировать

    Многие из этих вещей само собой разумеющиеся.Некоторые понятия и названия могут быть не такими точными,то есть просто пришли на ум.Надеюсь вы сможете указать места где краткое изложение не к месту. В следующий раз я объясню, как байесовская теория сочетается с реальными сценариями. Короче говоря, благодаря блогу Даниэля в Интернете я узнал много контента. Эта статья является моим собственным размышлением и пониманием, и я надеюсь, что это быть полезным для всех.

    Справочный блог

    Машинное обучение: поговорим о байесовской классификации Алгоритмический продуктовый магазин - Наивная байесовская классификация алгоритмов классификации