Сводка оценки максимального правдоподобия

искусственный интеллект

Сводка оценки максимального правдоподобия

Метод оценки максимального правдоподобия (Maximum Likelihood Estimate, MLE), также известный как оценка экстремального правдоподобия или оценка максимального правдоподобия, является еще одним предложенным методом оценки, но этот метод обычно приписывают британскому статистику Рональду Фишеру (RA Fisher).

эффект

В случае известных результатов испытаний (то есть выборок) он используется для оценки параметров, удовлетворяющих этим выборочным распределениям, и наиболее вероятного параметраθкак настоящийθ*оценки параметров. Проще говоря, оценка максимального правдоподобия равнаИспользуя известные результаты выборки, сделать обратный вывод о значениях параметров, которые с наибольшей вероятностью (максимальная вероятность) приведут к такому результату (модель известна, параметры неизвестны).

определение

  • дискретный

Пусть χ — дискретная случайная величина,является многомерным вектором параметров, если случайная величинанезависимы друг от друга, и формула вероятности P{, то функция вероятности может быть получена как P{}= ,существуетВ фиксированном состоянии приведенная выше формула выражаетвероятность; когдаКогда известно, становитсяфункция, которую можно записать в виде, которая называется функцией правдоподобия. Размер значения функции правдоподобия означает вероятность появления выборочного значения, так как выборочное значение было получено, то вероятность его возникновения должна быть относительно велика, то есть значение функции правдоподобия должно быть относительно велико, поэтому оценка максимального правдоподобия заключается в выборетот, который достигает максимумаθкак настоящийθ*оценка.

  • непрерывный

Пусть χ — непрерывная случайная величина, а ее функция плотности вероятности равна,является выборкой, взятой из населения, то же самое, еслинезависимы и одинаково распределены, поэтому совместная плотность вероятности выборок равна. Общий процесс такой же, как и для дискретного типа.

Введение. Функция плотности вероятности

Здесь мы рассматриваем простой случай (m=k=1), то есть случай, когда и параметр, и выборка равны 1. Предположим, что проводится эксперимент, количество экспериментов установлено равным 10, вероятность успеха каждого эксперимента равна 0,2, тогда вероятность неудачи равна 0,8, а количество успехов представлено y. Поскольку эксперименты до и после не зависят друг от друга, плотность вероятности количества успехов можно рассчитать как:

![](最大似然估计总结\11.gif)= ![](最大似然估计总结\12.gif) 其中 y ![](最大似然估计总结\13.gif)

Поскольку диапазон значений y был определен, а ω также известен, на рисунке I показано распределение вероятности, когда y принимает разные значения, а на рисунке II показана вероятность y, когда ω=0,7.

| 图Ⅰ ω=0.2 时概率分布图Рисунок I Карта распределения вероятностей при ω=0,2 Рисунок Ⅰ Карта распределения вероятностей при ω=0,2 |图Ⅱ ω=0.7 时概率分布图Рисунок II Диаграмма распределения вероятностей при ω=0,7 Рисунок II Диаграмма распределения вероятностей при ω=0,7 |

Тогда набор функций плотности вероятности, образованный ω, изменяющимся между [0, 1], образует модель.

Решение для оценки максимального правдоподобия

Согласно приведенному выше введению, мы можем знать: для случая, показанного на рисунке I, y=2 является наиболее вероятным событием. Но на самом деле мы сталкиваемся и с другой ситуацией: мы уже знаем серию наблюдений и интересующую модель, и теперь нам нужно выяснить, какая ФПВ (точнее, каков параметр ω) произвела в ней эти наблюдения. Чтобы решить эту проблему, необходимо использовать метод оценки параметров, В методе оценки максимального правдоподобия мы меняем роли вектора данных и вектора параметров в PDF, поэтому определение функции правдоподобия можно получить как :

Эту функцию можно понимать как функцию значения вектора параметров ω при заданном значении выборки. Взяв в качестве примера простую экспериментальную ситуацию, приведенную выше, если y задано как 7 в это время, то функция правдоподобия относительно ω может быть получена как:

Продолжая рассматривать то, что мы сказали ранее, рисунки I и II представляют собой распределение вероятности того, что вектор выборки y примет значение при заданном ω, а рисунок III представляет собой перестановку осей абсцисс и ординат рисунков I и II. график указывает, учитывая выборочный вектор y, возможность различных векторов параметров ω, которые соответствуют выборочному распределению этого значения. Если ω1 с большей вероятностью, чем ω2, приведет к появлению y=7, то ω1, естественно, ближе к реальному оцениваемому параметру, чем ω_2. Таким образом, нахождение оценки максимального правдоподобия ω сводится к нахождению функции правдоподобияLмаксимальная точка. Тогда какое значение ω является функцией правдоподобия L (ω | y = 7) является наибольшим, что требует использования концепции деривации в высшей математике.Если это многомерный вектор параметров, то он должен найти частичный вывод.

图Ⅲ $L(ω|y=7)$ 的似然函数分布图Рисунок III Распределение функции правдоподобия L(ω|y=7) Рисунок III Распределение функции правдоподобия L(ω|y=7)

Главное отметить, что в большинстве случаев прямой вывод переменной усложнит расчетную формулу, и в этом случае можно заимствовать логарифмическую функцию. Поскольку логарифмическая функция является монотонно возрастающей функцией, logL(ω)=∑ni=1log(xi;ω1,ω2,…,ωk) имеет ту же точку максимума, что и L(ω), и во многих случаях нахождение L точка (ω) относительно проста. Поэтому мы изменили точку нахождения максимального значения L(ω) на точку нахождения максимального значения logL(ω).

Если производная функции правдоподобия существует, то возьмите производную от logL(ω) по каждому параметру вектора параметров (в данном случае размерность вектора равна 1) и приравняйте ее к нулю, чтобы получить система уравнений:

Можно получить, что функция правдоподобия имеет экстремальное значение, когда ω = 0,7, Чтобы в дальнейшем судить о максимальном значении точки вместо минимального значения, мы можем продолжить нахождение производной второго порядка, чтобы судить о вогнутости и выпуклости функции.Если производная второго порядка ω=0,7 является отрицательным числом, то это максимальное значение, поэтому я не буду здесь вдаваться в подробности.
Следует также отметить, что если производная функции f(x1;θ1,θ2,…,θk) не существует по θ1,…,θk, то мы не можем получить систему уравнений правдоподобия, и тогда мы должны использовать другие методы для нахождения максимального правдоподобия. Однако оценочное значение, такое как увеличение или уменьшение ограниченной функции, используется для нахождения точки максимума L(θ).

Сводка оценки максимального правдоподобия

Оценка максимального правдоподобия — это просто применение теории вероятностей в статистике и один из методов оценки параметров. Это означает, что известно, что случайная выборка удовлетворяет определенному распределению вероятностей, но конкретные параметры не ясны.Оценка параметров заключается в проведении нескольких экспериментов, наблюдении за результатами и использовании результатов для вывода приблизительного значения параметров. Оценка максимального правдоподобия основана на идее, что известно, что определенный параметр делает вероятность выборки наибольшей, конечно, мы не будем выбирать другие выборки с малой вероятностью, поэтому просто используем этот параметр в качестве предполагаемого истинного значения.

求最大似然函数估计值的一般步骤:
  1. 写出似然函数;
  2. 对似然函数取对数,并整理
  3. 求导数
  4. 解似然方程

Относительно связи с методом наименьших квадратов:

  • Для метода наименьших квадратов, когда n групп выборочных наблюдений случайным образом выбираются из генеральной совокупности модели, наиболее разумная оценка параметров должна обеспечивать наилучшее соответствие модели данным выборки, то естьМинимальная сумма квадратов разностей между расчетными и наблюдаемыми значениями. Метод наименьших квадратов рассматривается с точки зрения функции «затраты/потери».В общем случае построение модели заключается в минимизации функции потерь, и метод наименьших квадратов можно рассматривать как частный случай функции потерь = (yhat−y)2. Подобно тому, что вы сказали, вы также можете использовать различные метрики расстояния в качестве функции потерь, а не только евклидово расстояние. так Можно сказать, что функция потерь является более общим утверждением.

  • Для метода максимального правдоподобия, когда n групп выборочных наблюдений случайным образом выбираются из генеральной совокупности модели, наиболее разумной оценкой параметра должна бытьМаксимизируйте вероятность извлечения n наборов выборочных наблюдений из модели.. Оценка максимального правдоподобия заключается в том, чтобы думать об этой проблеме с точки зрения вероятности.Интуитивно понятно, что функция правдоподобия - это вероятность (или плотность вероятности) наблюдения набора данных реализации в условиях заданных параметров. Идея функции максимального правдоподобия заключается в том, какие параметры могут заставить нас наблюдать текущий набор данных с наибольшей вероятностью. Аналогичной вероятностной оценкой является оценка момента. Он заключается в том, чтобы решить параметры обратно пропорционально уравнениям момента первого порядка и момента второго порядка. Очевидно, что это два метода оценки параметров из разных принципов.

  • Еще одно важное различие между оценкой максимального правдоподобия и методом наименьших квадратов заключается в том, что для оценки максимального правдоподобия требуется гипотеза распределения, которая относится к параметрической статистике.Если вы даже не знаете функцию распределения, как вы можете перечислить функцию правдоподобия? В методе наименьших квадратов такого предположения нет. Что у них общего, так это то, что они оба превращают проблему оценки в проблему оптимизации. Но метод наименьших квадратов — это задача выпуклой оптимизации, и оценка максимального правдоподобия не обязательно должна быть таковой. В методе максимального правдоподобия путем выбора параметров известные данные, скорее всего, появятся в определенном смысле, и определенное значение обычно относится к функции максимального правдоподобия, а функция правдоподобия часто относится к функции распределения вероятностей данных. В отличие от наименьших квадратов, максимальная вероятность требует знания этой функции распределения вероятностей, что сложно во времени.Обычно предполагается, что он удовлетворяет характеристикам функции нормального распределения, и в этом случае оценка максимального правдоподобия и оценка методом наименьших квадратов совпадают..

Во-первых, предположим, что модель линейной регрессии имеет вид:

f(x)=n∑j=1xjωj+ε=XWT+ε

Среди них X∈R1×d, W∈R1×d, ошибка ε∈R.

На данный момент известно X=(x1,x2,…,xn)T∈Rntimesd,y∈Rntimes1, как найти W?

Стратегия 1. Предположим, что εi N(0,σ2), то есть yi N(XiWT,σ2), затем используем оценку максимального правдоподобия для получения:

? \arg{ \maxw L(W)=\ln{ \sum{i=1}^n \frac{1}{\sqrt{2π}}exp(- \frac{1}{2}( \frac{y_i - X_i W^T}{σ}))}} ?

=−12σ2n∑i=1(yi−XiWT)2−nlnσ√2π

? \arg{ \minW f(W)=\sum{i=1}^n(y_i - Xi W^T)^2 = ||y - XW^T||{2}^2} ?

Разве это не метод наименьших квадратов?

В целом, метод наименьших квадратов принимает сумму квадратов разницы между оценочным значением и наблюдаемым значением в качестве функции потерь, а метод максимального правдоподобия использует функцию вероятности максимизации целевого значения в качестве целевой функции, и имеет дело с линейной регрессией с точки зрения вероятности и статистики.Функция вероятности правдоподобия связана с методом наименьших квадратов в предположении, что это функция Гаусса.