Оценка максимального правдоподобия является одним из наиболее часто используемых методов оценки параметров в машинном обучении. Весь процесс моделирования требует функции правдоподобия для описания вероятности появления реальных данных при различных параметрах модели, а функция правдоподобия является функцией параметров модели. Оценка максимального правдоподобия заключается в поиске оптимальных параметров, чтобы вероятность появления наблюдаемых данных была наибольшей, а статистическая модель была максимально похожа на реальные данные.
Формула моего сайта выглядит лучше:Мистер Лу.info/machine- сейчас..., Добро пожаловать в гости.
Предыдущие статьи в этой колонке были посвящены линейной регрессии и математическому выводу метода наименьших квадратов. Для набора обучающих данных с использованием линейного регрессионного моделирования могут быть разные параметры модели для описания данных.В настоящее время метод наименьших квадратов можно использовать для выбора оптимальных параметров, соответствующих обучающим данным, то есть квадрат ошибки используется как функция потерь. Процесс определения параметров с помощью машинного обучения называется оценкой параметров, и задача машинного обучения также становится задачей оптимизации, минимизирующей функцию потерь. Метод наименьших квадратов относительно интуитивен и прост для объяснения, но он не имеет общего значения.Для других задач машинного обучения, таких как задачи бинарной и множественной классификации, метод наименьших квадратов трудно пригодиться. В этой статье будет представлен универсальный метод оценки параметров: оценка максимального правдоподобия.
Мы используем пример с азартными играми, чтобы смоделировать вероятностный процесс рассуждений машинного обучения. Если вы участвуете в азартной игре, вам сообщат, что монета подбрасывается 10 раз, и вы сделаете следующую ставку, и у вас есть только один шанс.Если вы угадаете монету правильно, вы выиграете 100 юаней в следующий раз, когда ошибетесь. , Потерять 100 долларов. На данный момент, как вы будете решать?
Вероятность и вероятность
Как правило, у монеты две стороны, и если монета четная с обеих сторон, вероятность того, что монета окажется положительной после каждого подбрасывания, равна 0,5. Используя эту монету, вполне вероятно, что 10 бросков приведут к 5 орлам. Но если кто-то что-то сделает с монетой, например, модифицирует монету заранее, то монета каждый раз будет выпадать орлом, а теперь ее 10 раз подбрасывают, и 10 раз орел, то в следующий раз вы никогда не угадаете, что это орёл. Решка, потому что лицевая сторона 10 результатов есть, и интуитивно вы не поверите, что это обычная монета. Теперь человек подбрасывает монету 10 раз и выпадает 6 орлов и 4 решки Как оценить вероятность того, что в следующий раз монета окажется положительной?
Поскольку монета изготовлена не нами, мы не знаем, является ли монета полностью ровной, и можем сделать вывод о состоянии монеты только на основе текущих наблюдений. Предположим, что на монете есть параметр, который определяет, насколько равномерно монета положительная и отрицательная,Это означает, что плюсы и минусы равны, а вероятность того, что каждый бросок монеты будет положительным, равна 0,5,Указывает, что у монеты только решка, и вероятность того, что каждый бросок монеты окажется положительным, равна 1. Затем, исходя из наблюдаемых положительных и отрицательных результатов, поменяйте местами параметры построения монеты.Процесс представляет собой процесс оценки параметров.
вероятность
Подбрасывание монеты 10 раз может привести к различным ситуациям, таким как «5 орлов и 5 решек», «4 орла и 6 решек», «10 орлов и 0 решек» и т. д. Если мы знаем, как устроена монета, то есть известны параметры монеты, то вероятность «6 положительных и 4 отрицательных» равна:
Приведенная выше формула представляет собой функцию вероятности, представляющую известные параметры, вероятность того, что произойдет факт «6 положительных и 4 отрицательных». параметрПри принятии разных значений вероятность того, что что-то произойдет, будет разной. Обычно используется в математикеилиПредставляет функцию вероятности.
В описанном выше процессе используется 10 подбрасываний монеты для выбора 6 орлов, а также используются перестановки и комбинации. Потому что может появиться "6 положительных и 4 отрицательных"正正正正正正反反反反
,正正正正正反正反反反
,正正正正反正正反反反
Всего существует 210 комбинаций, и 6 из 10 должны быть выбраны в качестве головы. Если вероятность каждой решки равна 0,6, то вероятность выпадения решки равна (1-0,6). Действия при каждом подбрасывании монеты не зависят друг от друга и не влияют друг на друга.Вероятность выпадения «6 орлов и 4 решки» является произведением вероятностей каждого подбрасывания монеты, умноженным на 210 комбинаций.
Вероятность отражает:Зная причины, сделать вывод о вероятности определенного исхода.
Вероятность
В отличие от вероятности вероятность отражает:Зная результат, делая вывод о причине. В частности, функция правдоподобия представляет данные, основанные на наблюдениях, с различными параметрами.Когда , насколько вероятно, что статистическая модель аппроксимирует истинные наблюдаемые данные. Это очень похоже на ставку, упомянутую во вступительном абзаце. Вам дан ряд орлов и решек монеты, но вы не знаете структуру монеты. В следующий раз, когда вы делаете ставку, вам нужно сделать вывод о структуре монеты на основе существующих фактов. Например, когда наблюдается тот факт, что монета «10 орлов и 0 решек», очень вероятно, что монета будет каждый раз орлом; когда наблюдается тот факт, что монета «6 орлов и 4 решки», угадывающая монета может быть нечетной, вероятность выпадения следующей решки равна 0,6.
Функция правдоподобия очень похожа на предыдущую функцию вероятности.В отличие от функции вероятности, функция правдоподобияфункция, то естьнеизвестно. Функция правдоподобия измеряется при различных параметрахНиже указана вероятность фактического наблюдения данных. Функция правдоподобия обычно представляет собой совместную вероятность вероятности появления нескольких наблюдений, то есть вероятность появления нескольких наблюдений. В машинном обучении это можно понимать так: цельи особенностиВероятность того, что эти значения наблюдаются одновременно. Вероятность появления одного наблюдения равна, если наблюдения независимы друг от друга, то вероятность появления нескольких наблюдений может быть выражена какПроизведение вероятностей появления каждой выборки.
Вот небольшое объяснение взаимосвязи между независимостью событий и совместной вероятностью. Если событие А и событие В независимы друг от друга, то вероятность того, что события А и В произойдут одновременно, равна. Например, событие «дождь» и событие «мокрая земля» не являются независимыми друг от друга, «дождь» и «мокрая земля» происходят одновременно и сильно коррелированы, поэтому вероятность возникновения двух событий не может быть определена. произведение вероятностей Чтобы представить. Два подбрасывания монеты не влияют друг на друга, поэтому вероятность того, что монета выпадет орлом, может быть выражена как произведение отдельных вероятностей.
Обычно используется функция правдоподобияУказывает, что соответствует английскому правдоподобию. Обратите внимание на то, что при подбрасывании монеты «6 орлов и 4 решки» параметр монетыПри использовании различных значений функция правдоподобия выражается как:
График этой формулы показан на рисунке ниже. Из рисунка видно, что параметрыКогда он равен 0,6, функция правдоподобия является наибольшей, а когда параметр имеет другие значения, вероятность появления «6 положительных и 4 отрицательных» относительно меньше. В этой игре я бы предположил, что монета в следующий раз будет положительной, потому что, исходя из наблюдений, монета, скорее всего, будет положительной с вероятностью 0,6.
Распространяя на более общий сценарий, общую форму функции правдоподобия можно выразить следующей формулой, которая является произведением вероятностей появления каждой выборки, как упоминалось ранее.
оценка максимального правдоподобия
После понимания значения функции правдоподобия легко понять механизм оценки максимального правдоподобия. Функция правдоподобия является функцией параметров модели и описывает вероятность появления наблюдаемых реальных данных при различных параметрах. Оценка максимального правдоподобия заключается в поиске оптимальных параметров для максимизации функции правдоподобия. Другими словами, когда используются оптимальные параметры, вероятность появления наблюдаемых данных является наибольшей.
Оценка максимального правдоподобия для линейной регрессии
Как упоминалось в предыдущей статье, член ошибки линейной регрессииэто разница между прогнозируемым значением и истинным значением, как показано в формуле ниже. Это может быть какой-то случайный шум или какое-то другое влияние, которое модель линейной регрессии не учла.
Основное допущение линейной регрессии состоит в том, что ошибка следует нормальному распределению со средним значением 0, а множественные наблюдения не влияют друг на друга и не зависят друг от друга. Формула плотности вероятности нормального распределения (распределения Гаусса) выглядит следующим образом.Согласно формуле нормального распределения, мы можем получитьплотность вероятности.
Предположениеследует нормальному распределению со средним значением, дисперсия, а его формула плотности вероятности выглядит следующим образом. левая часть формулывыражатьявляется случайной величиной,точка с запятой для выделенияиНе случайная величина, а параметр этой функции плотности вероятности. Функция условной вероятности, используемая вВертикальные линии имеют четкие значения,значит данный(Данный),Вероятность возникновения).
Поскольку член ошибки следует нормальному распределению, то:
так как, и взять среднееравно 0, вы можете получить:
Приведенная выше формула выражает заданное,распределение вероятностей .не случайная величина, а параметр, поэтому используйтеразделены точкой с запятой. ИлииЭто разные типы переменных, и их нужно понимать отдельно.имеет совсем другое значение,иКогда оба происходят,распределение вероятностей .
Как упоминалось ранее, функция правдоподобия является произведением наблюдаемых вероятностей появления каждой выборки. Набор образцов естьданные наблюдения, в которых вероятность появления единичных данных наблюдения представляет собой только что полученную формулу,Результат наблюдений показан ниже.
Наконец, функция правдоподобия может быть выражена как:
в,ивсе наблюдаемые реальные данные известны,- параметры модели, которые необходимо решить.
Учитывая набор наблюденийи, как подобрать параметрыЧтобы модель достигла наилучшего эффекта? Оценка максимального правдоподобия говорит нам, что мы должны выбрать, так что функция правдоподобиямаксимум.Символы продукта в иОперация выглядит очень сложной, поэтому используйте ее напрямуюРасчет очень неудобен, поэтому статистики взяли исходную функцию правдоподобия на основелогарифм.Некоторые свойства могут значительно упростить вычислительную сложность и увеличить исходную функцию правдоподобия.логарифм не влияет на параметроптимальное значение . обычно используетсядля представления логарифмической вероятности функции потерь.
В приведенном выше процессе вывода в основном используются следующие две формулы:
так какЛогарифмы превращают умножение в сложение, а член произведения в функции правдоподобия становится членом суммирования. Также из-заЛогарифм можно исключить в степени, и, наконец, можно получить указанный выше результат.
Поскольку нас интересуют только параметрыПри каком значении функция правдоподобия максимальна, стандартное отклонениене влияетПри каком значении функция правдоподобия максимальна, поэтому стандартным отклонением можно пренебречьпункт. сноваДобавьте отрицательный знак, отрицательный и отрицательный положительные, исходная функция правдоподобияЗадача максимизации становится задачей минимизации, по сути, она окончательно минимизируется:
Это почти то же самое, что функция потерь, оптимизированная по методу наименьших квадратов, которая представляет собой сумму квадратов «истинного значения - прогнозируемого значения», что, можно сказать, аналогично.
Далее для решения параметров формулы можно найти метод производной, пусть производная равна 0, и получить матричное уравнение.Решение матричного уравнения является оптимальным решением модели, также можно использовать метод градиентного спуска для найти оптимальное решение модели.
Метод наименьших квадратов и максимальное правдоподобие
В предыдущем выводе было обнаружено, что формулы наименьших квадратов и максимальной вероятности почти одинаковы. Интуитивно понятно, что метод наименьших квадратов ищет параметр с наименьшим расстоянием ошибки между наблюдаемыми данными и гиперплоскостью регрессии. Оценка максимального правдоподобия заключается в максимизации вероятности появления наблюдаемых данных. Когда мы предполагаем, что ошибки распределены нормально, чем ближе все члены ошибок к значению 0, тем больше вероятность. Нормальное распределение симметрично по обе стороны от среднего, и процесс приближения члена ошибки к среднему эквивалентен процессу минимизации расстояния.
Суммировать
Оценка максимального правдоподобия — один из наиболее часто используемых методов оценки параметров в машинном обучении.Такие модели, как логистическая регрессия и глубокие нейронные сети, используют оценку максимального правдоподобия. Нам нужна функция правдоподобия для описания вероятности того, что реальные данные появляются при различных параметрах модели, а функция правдоподобия является функцией параметров модели. Оценка максимального правдоподобия заключается в поиске оптимальных параметров, чтобы вероятность появления наблюдаемых данных была наибольшей, а статистическая модель была максимально похожа на реальные данные.
использованная литература
-
Как понять «метод оценки максимального правдоподобия» в теории вероятностей? - Ответ Ма - ЗнаяУуху. Call.com/question/24…
-
Эндрю Нг: Конспект лекций CS229