логистическая регрессия
эммм.....музыка сначалаAlbum Soon
Линейная регрессия
В статистике линейная регрессия — это регрессионный анализ, в котором используется функция наименьших квадратов, называемая уравнением линейной регрессии, для моделирования связи между одной или несколькими независимыми и зависимыми переменными. Такая функция представляет собой линейную комбинацию одного или нескольких параметров модели, называемых коэффициентами регрессии. Случай только с одной независимой переменной называется простой регрессией, а случай с более чем одной независимой переменной называется многомерной линейной регрессией, Линейная регрессия — самая простая модель в машинном обучении.
Линейная регрессия определяется следующим образом: Для выборки, его выходное значение представляет собой линейную комбинацию его собственных значений (это предположение). Тогда модель, полученная путем моделирования данных, выглядит следующим образом:
При обучении набора выборочных данных целевая функция приближается к реальной функции (уравнение подгонки), и обычно используется метод наименьших квадратов. (Есть много методов, которые можно использовать для определения параметров оптимального решения... это другой вопрос...)
логистическая регрессия
Логистическая регрессия — это функция нелинейной регрессии. Как и линейная регрессия, это наиболее часто используемый алгоритм в машинном обучении. Линейная регрессия в основном используется для прогнозирования (моделирование прогнозирования), а бинарная логистическая регрессия в основном используется для бинарной классификации. Оба находятся под наблюдением машинное обучение. (На самом деле классификация — это тоже частный случай предсказания).
Логистическая регрессия дает вероятность принадлежности к классу (0-1), через нелинейную функцию вход сопоставляется с [0,1],, чтобы модель можно было использовать для классификации. обычно используетсяфункцияфункция:. С помощью этой функции выходное значение сопоставляется с вероятностью, полнойэффект.
После того, как целевая функция доступна, как построить функцию потерь для оптимизации модели? Используя метод MSE, функция потерь выглядит следующим образом:
Но его функция такова, видно, что он «невыпуклый», поэтому при оптимизации попадет в локально оптимальное решение. Поэтому необходимо искать другую функцию потерь.
Учитывая, что сама функция sigmod представляет собой вероятность принадлежности к определенному классу, существуют: Следовательно, его можно записать в следующем виде:(Принимает только значения 0 и 1). Таким образом, параметры могут быть решены с использованием мышления математической статистики. Для обучающих данных по принципу максимального правдоподобия нам нужно иметь
Для данных в пакете (m data) это:
Его соответствующая функция является выпуклой функцией, поэтому она не попадает в ловушку локального оптимального решения.
Отсюда можно понять, что суть кросс-энтропии (активации логистической регрессии) на самом деле заключается в максимальной вероятности.
(Запутанное место?)
На самом деле, y здесь представляетВероятность. . В этом случае остальное можно понять.
Максимальное правдоподобие и максимальная апостериорная вероятность
вероятность: Изучение вероятности заключается в определении вероятности события, происходящего после того, как модель и параметры известны. Вероятность — вещь детерминированная, идеальная величина, когда количество экспериментов приближается к бесконечности, частота равна вероятности. «Частотная школа» состоит в том, чтобы думать, что мир детерминирован, а параметры при моделированииявляется определенным значением, поэтому их точка зрения состоит в том, чтобы непосредственно моделировать само время.Частотная школа считает, что параметр в модели является определенным значением, и оценка этого значения обычно принимает метод максимального правдоподобия (MLE, максимальное правдоподобие оценить).
статистика: Статистика основана на заданных данных наблюдений, с использованием этих данных для моделирования и прогнозирования параметров. Популярная поговорка состоит в том, чтобы получить соответствующую модель и параметры описания модели в соответствии с наблюдаемыми данными (например, предполагается, что это гауссова модель, и получаются конкретные параметры модели.,Ждать).
Функции правдоподобия и вероятности: для функции, возможны два случая:
- еслипостоянный,Если это переменная, функция в это время называется функцией вероятности, что означает, чточастота возникновения.
- еслиявляется переменной, и в это времяявляется фиксированным значением (если оно было задано), то функция в это время называется функцией правдоподобия, что указывает на различныевниз, событиявероятность возникновения. Функция в это время также записывается как:
- Обратите внимание на различиеэто случай условной вероятности и функции правдоподобия,иотношения это когдасерединафиксируется, то; и когдаявляется случайной величиной,представляет собой условную вероятность. Общее будетне всегда представляет собой условную вероятность, если толькоисправлено, есть, Между тем дляЭто означает, что определена вероятность и определено значение параметра (не случайная величина, но пока неизвестная и требующая оценки).
байесовская формула:
Эта формула выражает достоверность события А, когда произошло событие В. один из нихпредставляет априорную вероятность A. . . То есть уверенность в том, что событие А является независимым. Байесовская школа мысли считает, что мир неопределен, поэтому предполагается, что существует оценка (априорная вероятность), а затем предыдущая оценка постоянно корректируется в соответствии с наблюдаемыми данными. Говоря простым языком, при моделировании событий параметры модели не учитываются.является определенной величиной, но учитывает параметрсам по себе также подчиняется некоторому базовому распределению (поэтому предположение и выбор априорной вероятности очень важны!!). Байесовский подход к оценке параметров заключается в максимальной апостериорной вероятности. Конкретная форма выглядит следующим образом:
При максимизации апостериорной вероятности, посколькууже известно (это фиксированное значение, наблюдаемое), поэтому максимизация апостериорного значения на самом деле
В этот момент можно увидеть, что на апостериорную вероятность влияют две части:и, первое похоже на функцию правдоподобия, а второе представляет собой априорное распределение параметров. Когда предполагается, что априорное распределение равно 1, апостериорная вероятность и функция правдоподобия в это время эквивалентны.
Разница между максимальной апостериорной вероятностью и функцией максимального правдоподобия:
Разница между ними в том, что параметрыПонимание другое.Идея максимизации апостериорной вероятности заключается в том, что сам параметр подчиняется потенциальному распределению и его нужно учитывать, а функция правдоподобия считает, что параметр является фиксированным значением, а не какой-то случайной величиной. Суть апостериорной вероятности заключается в следующем.,иМожет просто несчастный случай? ? Точно, это можно записать как??очень волшебно. . . В любом случае, суть максимизации апостериорной вероятности состоит в том, чтобыОн также рассматривается как случайная величина, которая представляет собой функцию правдоподобия со штрафным сроком.
references
Оценка максимального правдоподобия и оценка максимальной апостериорной вероятности
Оценка максимального правдоподобия (MLE) и оценка максимальной апостериорной вероятности (MAP)
Серия алгоритмов машинного обучения — MLE&MAP