Логистическая регрессия -> максимальная вероятность -> максимальная апостериорная вероятность

машинное обучение

логистическая регрессия

эммм.....музыка сначалаAlbum Soon

Линейная регрессия

   В статистике линейная регрессия — это регрессионный анализ, в котором используется функция наименьших квадратов, называемая уравнением линейной регрессии, для моделирования связи между одной или несколькими независимыми и зависимыми переменными. Такая функция представляет собой линейную комбинацию одного или нескольких параметров модели, называемых коэффициентами регрессии. Случай только с одной независимой переменной называется простой регрессией, а случай с более чем одной независимой переменной называется многомерной линейной регрессией, Линейная регрессия — самая простая модель в машинном обучении.

  Линейная регрессия определяется следующим образом: Для выборкиx_i, его выходное значение представляет собой линейную комбинацию его собственных значений (это предположение). Тогда модель, полученная путем моделирования данных, выглядит следующим образом:

f(x_i)= \sum_{m=1}^{p}w_mx_{im}+w_0

При обучении набора выборочных данных целевая функция приближается к реальной функции (уравнение подгонки), и обычно используется метод наименьших квадратов. (Есть много методов, которые можно использовать для определения параметров оптимального решения... это другой вопрос...)

логистическая регрессия

Логистическая регрессия — это функция нелинейной регрессии. Как и линейная регрессия, это наиболее часто используемый алгоритм в машинном обучении. Линейная регрессия в основном используется для прогнозирования (моделирование прогнозирования), а бинарная логистическая регрессия в основном используется для бинарной классификации. Оба находятся под наблюдением машинное обучение. (На самом деле классификация — это тоже частный случай предсказания).

  Логистическая регрессия дает вероятность принадлежности к классу (0-1), через нелинейную функцию вход сопоставляется с [0,1],p=f_{\phi}(x)=\theta^Tx, чтобы модель можно было использовать для классификации. обычно используетсяlogisticфункцияsigmodфункция:\phi(z)=\frac{1}{1+e^{-z}}. С помощью этой функции выходное значение сопоставляется с вероятностью, полнойP(Y|X)эффект.

Snipaste_2019-06-13_15-25-01.png

После того, как целевая функция    доступна, как построить функцию потерь для оптимизации модели? Используя метод MSE, функция потерь выглядит следующим образом:

J(w)=\sum_{i}\frac{1}{2}(\phi(z^{(i)})-y^{(i)})^2

Но его функция такова, видно, что он «невыпуклый», поэтому при оптимизации попадет в локально оптимальное решение. Поэтому необходимо искать другую функцию потерь.

Snipaste_2019-06-13_15-55-39.png

Учитывая, что сама функция sigmod представляет собой вероятность принадлежности к определенному классу, существуют:p_1=p(y=1|x,\theta)=\frac{e^{x\theta}}{1+e^{x\theta}} p_0=p(y=1|x,\theta)=\frac{1}{1+e^{x\theta}}Следовательно, его можно записать в следующем виде:p=p(y|x,\theta)=p_1^{y_i}*p_0^{1-y_i}(y_iПринимает только значения 0 и 1). Таким образом, параметры могут быть решены с использованием мышления математической статистики. Для обучающих данных по принципу максимального правдоподобия нам нужно иметь

max(y_ilogp_1+(1-y_i)logp_0)

Для данных в пакете (m data) это:

max\sum_{i=1}^{m}(y_ilogp_1+(1-y_i)logp_0)

Его соответствующая функция является выпуклой функцией, поэтому она не попадает в ловушку локального оптимального решения.

Snipaste_2019-06-13_15-55-44.png

   Отсюда можно понять, что суть кросс-энтропии (активации логистической регрессии) на самом деле заключается в максимальной вероятности.

(Запутанное место?)

L=min(-\sum_{i}^{m}(y_ilogy+(1-y_i)log(1-y))

На самом деле, y здесь представляетP(Y=1|X)Вероятность. . В этом случае остальное можно понять.

Максимальное правдоподобие и максимальная апостериорная вероятность

  

вероятность: Изучение вероятности заключается в определении вероятности события, происходящего после того, как модель и параметры известны. Вероятность — вещь детерминированная, идеальная величина, когда количество экспериментов приближается к бесконечности, частота равна вероятности. «Частотная школа» состоит в том, чтобы думать, что мир детерминирован, а параметры при моделировании\thetaявляется определенным значением, поэтому их точка зрения состоит в том, чтобы непосредственно моделировать само время.Частотная школа считает, что параметр в модели является определенным значением, и оценка этого значения обычно принимает метод максимального правдоподобия (MLE, максимальное правдоподобие оценить).

статистика: Статистика основана на заданных данных наблюдений, с использованием этих данных для моделирования и прогнозирования параметров. Популярная поговорка состоит в том, чтобы получить соответствующую модель и параметры описания модели в соответствии с наблюдаемыми данными (например, предполагается, что это гауссова модель, и получаются конкретные параметры модели.\sigma,\mu,Ждать).

Функции правдоподобия и вероятности: для функцииP(x|\theta), возможны два случая:

  1. если\thetaпостоянный,xЕсли это переменная, функция в это время называется функцией вероятности, что означает, чтоxчастота возникновения.
  2. если\thetaявляется переменной, и в это времяxявляется фиксированным значением (если оно было задано), то функция в это время называется функцией правдоподобия, что указывает на различные\thetaвниз, событияxвероятность возникновения. Функция в это время также записывается как:L(x;\theta)
  3. Обратите внимание на различиеP(x|\theta)это случай условной вероятности и функции правдоподобия,P(X;\theta)иP(X|\theta)отношения это когдаP(X|\theta)середина\thetaфиксируется, тоP(X;\theta)=P(X|\theta); и когда\thetaявляется случайной величиной,P(X|\theta)представляет собой условную вероятность. Общее будетP(X|\theta)не всегда представляет собой условную вероятность, если только\thetaисправлено, естьP(x=X|\theta)=P(x=X;theta), Между тем дляP(X;\theta)Это означает, что определена вероятность и определено значение параметра (не случайная величина, но пока неизвестная и требующая оценки).

байесовская формула:

P(A|B)=\frac{P(B|A)}{P(B)}*P(A)

Эта формула выражает достоверность события А, когда произошло событие В. один из нихP(A)представляет априорную вероятность A. . . То есть уверенность в том, что событие А является независимым. Байесовская школа мысли считает, что мир неопределен, поэтому предполагается, что существует оценка (априорная вероятность), а затем предыдущая оценка постоянно корректируется в соответствии с наблюдаемыми данными. Говоря простым языком, при моделировании событий параметры модели не учитываются.\thetaявляется определенной величиной, но учитывает параметр\thetaсам по себе также подчиняется некоторому базовому распределению (поэтому предположение и выбор априорной вероятности очень важны!!). Байесовский подход к оценке параметров заключается в максимальной апостериорной вероятности. Конкретная форма выглядит следующим образом:

P(\theta|X)=\frac{P(X|\theta)*P(\theta)}{P(X)}

При максимизации апостериорной вероятности, посколькуP(X)уже известно (это фиксированное значение, наблюдаемое), поэтому максимизация апостериорного значения на самом деле

maxP(X|\theta)*P(\theta)

В этот момент можно увидеть, что на апостериорную вероятность влияют две части:P(X|\theta)иP(\theta), первое похоже на функцию правдоподобия, а второе представляет собой априорное распределение параметров. Когда предполагается, что априорное распределение равно 1, апостериорная вероятность и функция правдоподобия в это время эквивалентны.

Разница между максимальной апостериорной вероятностью и функцией максимального правдоподобия:

Разница между ними в том, что параметры\thetaПонимание другое.Идея максимизации апостериорной вероятности заключается в том, что сам параметр подчиняется потенциальному распределению и его нужно учитывать, а функция правдоподобия считает, что параметр является фиксированным значением, а не какой-то случайной величиной. Суть апостериорной вероятности заключается в следующем.maxP(X|\theta)*P(\theta)P(X)Может просто несчастный случай? ? Точно, это можно записать какP(\theta|X)=\frac{P(X|\theta)*P(\theta)}{P(X)}??очень волшебно. . . В любом случае, суть максимизации апостериорной вероятности состоит в том, чтобы\thetaОн также рассматривается как случайная величина, которая представляет собой функцию правдоподобия со штрафным сроком.

references

BGM

Почему функция потерь логистической регрессии использует оценку максимального правдоподобия вместо метода наименьших квадратов?

Оценка максимального правдоподобия и оценка максимальной апостериорной вероятности

Оценка максимального правдоподобия (MLE) и оценка максимальной апостериорной вероятности (MAP)

Поговорите о MLE и MAP для машинного обучения: оценка максимального правдоподобия и максимальная апостериорная оценка

Серия алгоритмов машинного обучения — MLE&MAP

Подробное объяснение оценки максимального правдоподобия (MLE), оценки максимальной апостериорной вероятности (MAP) и понимания формулы Байеса.

максимальная апостериорная вероятность

Байесовская оценка, оценка максимального правдоподобия, оценка максимальной апостериорной вероятности