Перезагрузка Основы машинного обучения — оценка максимального правдоподобия и максимальная апостериорная оценка

машинное обучение искусственный интеллект
Перезагрузка Основы машинного обучения — оценка максимального правдоподобия и максимальная апостериорная оценка

«Это третий день моего участия в ноябрьском испытании обновлений. Подробную информацию об этом событии см.:Вызов последнего обновления 2021 г."

Частотистская и байесовская школы, где оценка максимального правдоподобия принадлежит частотной школе, а максимальная апостериорная оценка принадлежит байесовской школе.

Оценка максимального правдоподобия (MLE)

В процессе машинного обучения первыми являются данные, затем данные представляют собой выборку полного набора данных, а затем сначала выбирают модель, соответствующую выборочным данным, или распределение вероятностей для описания распределения данных. модели можно просто понимать как набор функций, мы Чтобы найти оптимальную функцию в этих наборах функций, то есть найти оптимальный параметр функции в пространстве параметров функции, чем ближе заданное значение нашей функции к истинному значению, лучшее. Другими словами, чтобы найти распределение, чем оно ближе к истинному распределению, тем лучше, то соответствующие параметры этого распределения и есть то, что мы ищем.

Поэтому после выбора модели мы корректируем параметры, двигаясь к целевой функции, где параметрыθ\thetaпредставить и найти наилучшие параметры. В MLE мы оцениваем этот параметр, используя только данные рукиθ\theta, в конкретной точке наблюдаем данные, а затем находимθ\thetaЭти данные можно сделать наиболее вероятными.

001.png

аргумент maxθP(Dθ)\argmax_{\theta} P(D|\theta)

Максимальная апостериорная оценка (MAP)

Максимальная апостериорная оценка является распространенным методом оценки параметров байесовских моделей. Выше в MLE мы знаем, что для MLE мы полагаемся только на имеющиеся выборки для оценки параметров, а при апостериорной оценке обработка данных также зависит от априорной.P(θ)P(\theta).

аргумент maxθP(θD)=аргумент maxθP(Dθ)P(θ)P(D)\argmax_{\theta} P(\theta|D) = \argmax_{\theta} \frac{ P(D|\theta)P(\theta)}{P(D)}

потому что здесьP(D)P(D)заθ\thetaПринятие разных значений не имеет никакого эффекта, т.е.P(D)P(D)не зависит отθ\thetaТаким образом, приведенную выше формулу можно упростить до

аргумент maxθP(Dθ)P(θ)\argmax_{\theta} P(D|\theta)P(\theta)

Как понимать эту формулу?Во-первых, давайте посмотрим на эти дваP(Dθ)P(D|\theta)иP(θ)P(\theta)умножить, гдеP(Dθ)P(D|\theta)Это не MLE, но есть еще один пункт по сравнению с MLEP(θ)P(\theta)То есть приоры по параметрам. То есть мы не знаем о данных всего, но кое-что знаем, а затем корректируем нашу вероятность, постоянно наблюдая за данными (что можно рассматривать как свидетельство)P(θD)P(\theta|D), что можно рассматривать как априорную регуляризацию.

002.png