Введение в максимальное правдоподобие

алгоритм

Идея метода максимального правдоподобия начинается с теории ошибок Гаусса, которая превосходна в различных методах оценивания.Разновидность метода частотной оценки.

Частотный подход к оценке параметров

Метод оценки частотных параметров, будь то оценка момента, метод максимального правдоподобия, интервальная оценка или другие методы,параметры перед отбором проб \theta нет понимания.

здесь иБайесовский методДифференцировать:Базовый байесовский взглядвПеред взятием пробы, по параметру\thetaОбладая определенным знанием, называемымПредыдущие знания. Это из байесовского и частотногоглавное отличие. Байесовская статистика собирает, извлекает и обрабатывает априорную информацию, определяет ее количество и формируетпредварительное распределение, по формуле Байеса, чтобы получитьАпостериорное распределение. После получения апостериорного распределения параметр\thetaизЛюбой статистический вывод может быть основан только на этом апостериорном распределении..

Что такое точечная оценка

Выборка из населенияx_1,\dots,x_n, полагая, что параметры популяции равны\theta, по этим образцам выровнять параметры\theta Оценки сделаны, и соответствующие статистические данные могут быть построены\hat \theta = \hat \theta(x_1,\dots,x_n), всякий раз, когда есть выборка, она подставляется в функцию\hat \theta(x_1,\dots,x_n)Рассчитать значение как\thetaрасчетное значение.

из-за неизвестных параметров\thetaточка на числовой прямой, используя\hat \thetaчтобы оценить\theta Это эквивалентно использованию одной точки для оценки другой точки, такая оценка называется точечной оценкой., что отличается от интервальной оценки.

какова максимальная вероятность

Пусть общее распределениеf(X;\theta),x_1,\dots,x_nвыборка, взятая из распределения населения, то выборка(x_1,\dots,x_n)Совместное распределение:L(x_1,x_2,\dots,x_n;\theta)=f(x_1;\theta) f(x_2;\theta) \cdots f(x_n;\theta)

когда исправлено\theta, рассматривается какx_1,\dots,x_n, L — функция плотности вероятности.

когда исправленоx_1,\dots,x_n, рассмотрим L как\thetaфункция, так как\thetaНекоторая величина есть, но она неизвестна, это не случайная величина (частотный взгляд), ее нельзя назвать вероятностью, а называют правдоподобием.

Точка, которая максимизирует вероятность, обозначается как:

\theta^*= argmax L(x_1,\dots,x_n;\theta)

и объединить его как\thetaОценочное значение , в существующей выборкеx_1,\dots,x_nсостояние,\theta^*это называется\thetaизоценка максимального правдоподобия.

так как

\log L = \sum_{i=1}^n \log f(x_i;\theta)

А чтобы максимизировать L, нужно только максимизировать log L, поэтому в f паре\thetaПри наличии непрерывных частных производных можно составить уравнение:

\frac{\partial \log L}{\partial \theta} = 0

Одновременная система уравнений при наличии нескольких параметров:

\frac{\partial \log L}{\partial \theta_i} = 0,i=1,\dots,k

Если эта система уравнений имеет единственное решение и можно проверить, что это точка максимума, то это должна быть точка, которая максимизирует L, то есть оценка максимального правдоподобия.

В сложных ситуациях существует более одного решения системы уравнений, и поиск этих решений требует больших вычислительных ресурсов, и непросто определить, какое из них максимизирует L.

иногда f не обязательно правильно\thetaДифференцируема, даже если сама f не непрерывна, то система уравнений бесполезна, чтобы вернуться к исходному определению

\theta^*= argmax L(x_1,\dots,x_n;\theta)

ограниченное

максимальная вероятностьРаспределение должно иметь параметрический вид.

максимальная вероятностьЛегко переобучить, когда данных меньше.