Машинное обучение | Оценка максимального правдоподобия: понимание машинного обучения с вероятностной точки зрения

машинное обучение

Оценка максимального правдоподобия является одним из наиболее часто используемых методов оценки параметров в машинном обучении. Весь процесс моделирования требует функции правдоподобия для описания вероятности появления реальных данных при различных параметрах модели, а функция правдоподобия является функцией параметров модели. Оценка максимального правдоподобия заключается в поиске оптимальных параметров, чтобы вероятность появления наблюдаемых данных была наибольшей, а статистическая модель была максимально похожа на реальные данные.

公众号
Представлены предыдущие статьи в этой колонкеМатематический процесс линейной регрессии и метода наименьших квадратов. Для набора обучающих данных с использованием линейного регрессионного моделирования могут быть разные параметры модели для описания данных.В настоящее время метод наименьших квадратов можно использовать для выбора оптимальных параметров, соответствующих обучающим данным, то есть квадрат ошибки используется как функция потерь. Процесс определения параметров с помощью машинного обучения называется оценкой параметров, и задача машинного обучения также становится задачей оптимизации, минимизирующей функцию потерь. Метод наименьших квадратов более интуитивен и прост для объяснения, но он не имеет общего значения.Для большего количества других задач машинного обучения, таких как задачи бинарной и множественной классификации, метод наименьших квадратов трудно пригодиться. В этой статье будет представлен универсальный метод оценки параметров: оценка максимального правдоподобия.

Мы используем пример с азартными играми, чтобы смоделировать процесс вероятностных рассуждений машинного обучения. Если вы участвуете в азартной игре, вам сообщат, что монета подбрасывается 10 раз, и вы сделаете следующую ставку, и у вас есть только один шанс.Если вы угадаете монету правильно, вы выиграете 100 юаней в следующий раз, когда ошибетесь. , Потерять 100 долларов. На данный момент, как вы будете решать?

Вероятность и вероятность

Как правило, у монеты две стороны, и если монета четная с обеих сторон, вероятность того, что монета окажется положительной после каждого подбрасывания, равна 0,5. Используя эту монету, вполне вероятно, что 10 бросков приведут к 5 орлам. Но если кто-то что-то сделает с монетой, например, модифицирует монету заранее, то монета каждый раз будет выпадать орлом, а теперь ее 10 раз подбрасывают, и 10 раз орел, то в следующий раз вы никогда не угадаете, что это орёл. Решка, потому что лицевая сторона 10 результатов есть, и интуитивно вы не поверите, что это обычная монета. Теперь человек подбрасывает монету 10 раз и выпадает 6 орлов и 4 решки Как оценить вероятность того, что в следующий раз монета окажется положительной?

Поскольку монета изготовлена ​​не нами, мы не знаем, является ли монета полностью ровной, и можем сделать вывод о состоянии монеты только на основе текущих наблюдений. Предположим, что на монете есть параметрθ, который определяет, насколько равномерно монета положительная и отрицательная,θ = 0.5Это означает, что плюсы и минусы равны, а вероятность того, что каждый бросок монеты будет положительным, равна 0,5,θ = 1Указывает, что у монеты только решка, и вероятность того, что каждый бросок монеты окажется положительным, равна 1. Затем, исходя из наблюдаемых положительных и отрицательных результатов, поменяйте местами параметры построения монеты.θПроцесс представляет собой процесс оценки параметров.

вероятность

Подбрасывание монеты 10 раз может привести к различным ситуациям, таким как «5 орлов и 5 решек», «4 орла и 6 решек», «10 орлов и 0 решек» и т. д. Если мы знаем, как устроена монета, то есть известны параметры монетыθ, то вероятность «6 положительных и 4 отрицательных» равна:

P(6正4反 \ |\ \theta=0.5)=C_{10}^{6}\times 0.5^6 \times (1-0.5)^4 \approx 0.2051 \\ P(6正4反 \ |\ \theta=0.6)=C_{10}^{6}\times 0.6^6 \times (1-0.6)^4 \approx 0.2508 \\ P(6正4反 \ |\ \theta=0.9)=C_{10}^{6}\times 0.9^6 \times (1-0.9)^4 \approx 0.0112 \\

Уравнение 1 представляет собой функцию вероятности, представляющую известные параметрыθ, вероятность того, что произойдет факт «6 положительных и 4 отрицательных». параметрθПри принятии разных значений вероятность того, что что-то произойдет, будет разной. Обычно используется функция вероятности (Probability).PилиPrВыражать.

В описанном выше процессе используется 10 подбрасываний монеты для выбора 6 орлов, а также используются перестановки и комбинации. Потому что может появиться "6 положительных и 4 отрицательных"正正正正正正反反反反,正正正正正反正反反反,正正正正反正正反反反Всего существует 210 комбинаций, и 6 из 10 должны быть выбраны в качестве головы. Если вероятность каждой решки равна 0,6, то вероятность выпадения решки равна (1-0,6). Действия при каждом подбрасывании монеты не зависят друг от друга и не влияют друг на друга.Вероятность выпадения «6 орлов и 4 решки» является произведением вероятностей каждого подбрасывания монеты, умноженным на 210 комбинаций.

Вероятность отражает:Зная причины, сделать вывод о вероятности определенного исхода.

Вероятность

В отличие от вероятности вероятность отражает:Зная результат, делая вывод о причине. В частности, функция правдоподобия представляет данные, основанные на наблюдениях, с различными параметрами.θКогда , насколько вероятно, что статистическая модель аппроксимирует истинные наблюдаемые данные. Это очень похоже на ставку, упомянутую во вступительном абзаце. Вам дан ряд орлов и решек монеты, но вы не знаете структуру монеты. В следующий раз, когда вы делаете ставку, вам нужно сделать вывод о структуре монеты на основе существующих фактов. Например, когда наблюдается тот факт, что монета «10 орлов и 0 решек», очень вероятно, что монета будет каждый раз орлом; когда наблюдается тот факт, что монета «6 орлов и 4 решки», угадывающая монета может быть нечетной, вероятность выпадения следующей решки равна 0,6.

Функция правдоподобия очень похожа на предыдущую функцию вероятности.В отличие от функции вероятности, функция правдоподобияθфункция, то естьθнеизвестно. Функция правдоподобия измеряется при различных параметрахθНиже указана вероятность фактического наблюдения данных. Функция правдоподобия обычно представляет собой совместную вероятность вероятности появления нескольких наблюдений, то есть вероятность появления нескольких наблюдений. Вероятность появления одного наблюдения равнаP(θ), если наблюдения независимы друг от друга, то вероятность появления нескольких наблюдений может быть выражена какПроизведение вероятностей появления каждой выборки. Вот небольшое объяснение взаимосвязи между независимостью событий и совместной вероятностью. Если событие А и событие В независимы друг от друга, то вероятность того, что события А и В произойдут одновременно, равнаA发生的概率 * B发生的概率. Например, событие «дождь» и событие «мокрая земля» не являются независимыми друг от друга, «дождь» и «мокрая земля» происходят одновременно и сильно коррелированы, поэтому вероятность обоих событий нельзя рассчитать с помощью вероятность одного события, представленного произведением. Два подбрасывания монеты не влияют друг на друга, поэтому вероятность того, что монета выпадет орлом, может быть выражена как произведение отдельных вероятностей.

Обычно используется функция правдоподобияLВыражать. Обратите внимание на то, что при подбрасывании монеты «6 орлов и 4 решки» параметр монетыθПри использовании различных значений функция правдоподобия выражается как:

L(\theta ; 6正4反)=C_{10}^{6}\times \theta^6 \times (1-\theta)^4 \\  \\ L(\theta ; \mathbf{X}) = P_1(\theta ; X_1) \times P_2(\theta ; X_2) ... \times P_n(\theta ; X_n) = \prod P_i(\theta; X_i) \\ \\

График уравнения 2 показан на рисунке ниже. Из рисунка видно, что параметрыθКогда он равен 0,6, функция правдоподобия является наибольшей, а когда параметр имеет другие значения, вероятность появления «6 положительных и 4 отрицательных» относительно меньше. В этой игре я бы предположил, что монета в следующий раз будет положительной, потому что, исходя из наблюдений, монета, скорее всего, будет положительной с вероятностью 0,6.

“6正4反”的似然函数

Общая форма функции правдоподобия может быть представлена ​​второй строкой уравнения 2, то есть произведением вероятностей появления каждой выборки, как упоминалось ранее.

оценка максимального правдоподобия

После понимания значения функции правдоподобия легко понять механизм оценки максимального правдоподобия. Функция правдоподобия является функцией параметров статистической модели и описывает вероятность появления наблюдаемых реальных данных при различных параметрах. Оценка максимального правдоподобия заключается в поиске оптимальных параметров для максимизации функции правдоподобия. Другими словами, когда используются оптимальные параметры, вероятность появления наблюдаемых данных является наибольшей.

Оценка максимального правдоподобия для линейной регрессии

Как упоминалось в предыдущей статье, член ошибки линейной регрессииεпредставляет собой разницу между прогнозируемым значением и истинным значением (уравнение 3, строка 1), это может быть случайный шум или какой-либо другой влияющий фактор, который не учитывает модель линейной регрессии. Основное допущение линейной регрессии (также упомянутое в предыдущей статье) состоит в том, что ошибка следует нормальному распределению со средним значением 0, а множественные наблюдения не влияют друг на друга и не зависят друг от друга. Формула плотности вероятности нормального распределения показана в уравнении 3, строка 2. в строке 2Pr(x; μ, σ)из;Точка с запятой подчеркивает, что μ и σ являются параметрами этой функции плотности вероятности, которые совпадают с параметрами, используемыми в условной функции вероятности.|Символы вертикальной полосы имеют разное значение.

y_i = \epsilon_i + \sum w_dx_{i,d} =\epsilon_i + \mathbf{w}^\top \mathbf{x_i} \\ Pr(x ; \mu, \sigma) = \frac{1}{\sqrt{2 \pi \sigma^2}}\exp{({-\frac{(x - \mu)^2}{2 \sigma^2}})} \\ Pr(\epsilon_i) = \frac{1}{\sqrt{2 \pi \sigma^2}}\exp{({-\frac{(\epsilon_i)^2}{2 \sigma^2}})} \\ Pr(y_i|\mathbf{x_i}; \mathbf{w}) = \frac{1}{\sqrt{2 \pi \sigma^2}}\exp{({-\frac{(y_i - \mathbf{w}^\top \mathbf{x_i})^2}{2 \sigma^2}})} \\ \\

будетεПодставить и взять среднееμравен 0, можно получить третью строку формулы 3. Затем поместите в строку 1xиyПодставляем отношения между 3-й строкой, можно получить 4-ю строку, 4-я строка перваяiВероятность появления одной выборки.

Как упоминалось ранее, функция правдоподобия является произведением наблюдаемых вероятностей появления каждой выборки. Набор выборок имеет N данных наблюдений, в которых вероятность появления единичных данных наблюдений показана в четвертой строке формулы 3, а произведение N данных наблюдений показано в первой строке формулы 4. Наконец, функция правдоподобия может быть выражена как структура в строке 2 уравнения 4. в,xиyвсе наблюдаемые реальные данные известны,ω- параметры модели, которые необходимо решить.

L(\mathbf{w}) = L(\mathbf{w}; \mathbf{X}, \mathbf{y}) = \prod_{i=1}^{N}Pr(y_i|\mathbf{x_i}; \mathbf{w}) \\ L(\mathbf{w}) = \prod_{i=1}^{N} \frac{1}{\sqrt{2 \pi \sigma^2}}\exp{({-\frac{(y_i - \mathbf{w}^\top \mathbf{x_i})^2}{2 \sigma^2}})}

Учитывая данные наблюденийXиy, как подобрать параметрыωЧтобы модель достигла наилучшего эффекта? Оценка максимального правдоподобия говорит нам, что мы должны выбратьωсделать функцию правдоподобияLмаксимум.LСимволы продукта в иexpОперация выглядит очень сложной, поэтому используйте ее напрямуюLРасчет очень неудобен, поэтому статистики взяли исходную функцию правдоподобия на основеlogлогарифм.logНекоторые свойства могут значительно упростить вычислительную сложность и увеличить исходную функцию правдоподобия.logлогарифм не влияет на параметрωГде взять оптимальное значение. обычно используетсяlдля представления логарифмической функции правдоподобия.

\ell(\mathbf{w}) = \log\ L(\mathbf{w}) = \log \ \prod_{i=1}^{N} \frac{1}{\sqrt{2 \pi \sigma^2}}\exp{({-\frac{(y_i - \mathbf{w}^\top \mathbf{x_i})^2}{2 \sigma^2}})} \\ \log (ab) = \log(a) + \log(b) \\ \ell(\mathbf{w}) = \sum_{i=1}^{N}\log[\frac{1}{\sqrt{2 \pi \sigma^2}}\exp{({-\frac{(y_i - \mathbf{w}^\top \mathbf{x_i})^2}{2 \sigma^2}})}] \\ log (2^a) = a\\ \ell(\mathbf{w}) = N\log{\frac{1}{\sqrt{2 \pi \sigma^2}}} - \frac{1}{2 \sigma^2}\sum_{i=1}^{N}(y_i - \mathbf{w}^\top \mathbf{x_i})^2

так какlogЛогарифмы преобразуют умножение в сложение (как показано в уравнении 5, строка 2), а член произведения в функции правдоподобия становится суммирующим членом, как показано в уравнении 5, строка 3. Также из-заlogЛогарифм удаляет возведение в степень, и вы получаете функцию в строке 4 уравнения 5.

Поскольку нас интересуют только параметрыωПри каком значении функция правдоподобия максимальна, стандартное отклонениеσне влияетωПри каком значении функция правдоподобия максимальна, поэтому стандартным отклонением можно пренебречьσпункт. Добавьте отрицательный знак, отрицательный и отрицательный станут положительными, исходная задача максимизации станет задачей минимизации, а конечным результатом будет следующая формула 6.

L(\mathbf{w}) = \sum_{i=1}^{N}(y_i - \mathbf{w}^\top \mathbf{x_i})^2 \\ L(\mathbf{w}) = (\mathbf{X}\mathbf{w}-\mathbf{y})^\top (\mathbf{X}\mathbf{w}-\mathbf{y}) = ||\mathbf{X}\mathbf{w}-\mathbf{y}||_2^2 \\ \mathbf{w^*} = \arg\min_{\mathbf{w}}\left\{ (\mathbf{X}\mathbf{w}-\mathbf{y})^\top (\mathbf{X}\mathbf{w}-\mathbf{y}) \right\} \\ \\

Уравнение 6 почти совпадает с функцией потерь, оптимизированной методом наименьших квадратов в предыдущей статье.真实值 - 预测值Можно сказать, что сумма квадратов имеет одну и ту же цель.

Далее для решения параметров формулы 6 можно воспользоваться методом вывода из предыдущей статьи, пусть производная равна 0, и получить матричное уравнение Решение матричного уравнения является оптимальным решением модели, можно также используйте метод градиентного спуска, чтобы найти оптимальное решение модели. Градиентный спуск будет рассмотрен в следующей статье в этой колонке.

Метод наименьших квадратов и максимальное правдоподобие

В предыдущем выводе было обнаружено, что формулы наименьших квадратов и максимальной вероятности почти одинаковы. Интуитивно понятно, что метод наименьших квадратов ищет параметр с наименьшим расстоянием ошибки между наблюдаемыми данными и гиперплоскостью регрессии. Оценка максимального правдоподобия заключается в максимизации вероятности появления наблюдаемых данных. Когда мы предполагаем, что ошибки распределены нормально, чем ближе все члены ошибок к значению 0, тем больше вероятность. Нормальное распределение симметрично по обе стороны от среднего, и процесс приближения члена ошибки к среднему эквивалентен процессу минимизации расстояния.

观测数据与回归直线的误差

Суммировать

Оценка максимального правдоподобия — один из наиболее часто используемых методов оценки параметров в машинном обучении.Такие модели, как логистическая регрессия и глубокие нейронные сети, используют оценку максимального правдоподобия. Нам нужна функция правдоподобия для описания вероятности того, что реальные данные появляются при различных параметрах модели, а функция правдоподобия является функцией параметров модели. Оценка максимального правдоподобия заключается в поиске оптимальных параметров, чтобы вероятность появления наблюдаемых данных была наибольшей, а статистическая модель была максимально похожа на реальные данные.