Основные концепции машинного обучения: байесовская оценка, оценка максимального правдоподобия, максимальная апостериорная оценка

вкладывать деньги

Исходный текст (мой блог): Разница между байесовской оценкой, оценкой максимального правдоподобия и максимальной апостериорной оценкой

Дополнительные ресурсы по машинному обучению для глубокого обучения


Анализ случая

Даже люди, которые изучали машинное обучениеMLE (оценка максимального правдоподобия), MAP (максимальная апостериорная оценка) и байесовская оценка (Bayesian)Еще можно быть в неведении. Для базовой модели ее обычно можно смоделировать с этих трех точек зрения, например, для логистической регрессии (логистическая регрессия):

MLE: Logistics Regression

MAP: Regularized Logistics Regression
Bayesian: Bayesian Logistic Regression

Эта статья сочетает в себе практические примеры, чтобы объяснить существенные различия между тремя простыми для понимания способами, надеясь помочь читателям устранить препятствия в их понимании.

Предварительная точка знаний: Пространство гипотез

Что такое пространство гипотез? Мы можем понять это так. Машинное обучение включает в себя различные алгоритмы, такие как линейная регрессия, машины опорных векторов, нейронные сети, деревья решений, GDBT и другие. Когда мы моделируем, первым шагом является выбор конкретного алгоритма, такого как «машина опорных векторов». **После выбора алгоритма мы выбрали пространство гипотез. ** В пространстве гипотез у нас обычно есть бесконечное количество различных решений (или их можно понимать как модели),Что делает алгоритм оптимизации (например, градиентный спуск), так это выбирает лучшее решение или решения/модели., конечно, процесс оптимизации зависит от выборочных данных. Например, если мы решим использовать SVM, это будет эквивалентно нашему дополнительному решению/модели, сосредоточенному в верхней половине (синие точки).

Конкретный "игрушечный" вопрос

«Чжан Сан столкнулся с математической проблемой и хотел обратиться за помощью к другим. Немного подумав, он обнаружил, что его друг был преподавателем на факультете компьютерных наук Университета Цинхуа. Поэтому он решил спросить студентов факультета компьютерных наук. Университет Цинхуа за помощью Какой компьютер использовал Чжан Сан?СтратегияИдти за помощью?

Здесь «Компьютерный отдел Цинхуа» представляет собой пространство гипотез. В этом пространстве гипотез каждого ученика можно рассматривать как (экземпляр) модели.

Для Чжан Саня у него естьтри разные стратегииможешь выбрать.

Первая стратегия: MLE

Первая стратегия состоит в том, чтобы выбрать студента с лучшими прошлыми оценками на факультете и попросить его решить головоломку.. Например, мы можем выбрать студентов с лучшими результатами на последних трех экзаменах.

**Общий процесс обучения делится на «процесс обучения» и «процесс прогнозирования». Схему первой стратегии можно представить следующей диаграммой. **это здесь,Процесс обучения эквивалентен отбору лучших студентов со всех факультетов.Поэтому "стенограмма студенческого прошлого" вот что мы знаемтренировочные данные D, выберите учащихся с лучшими оценками (рассчитайте исторический средний балл и выберите самый высокий), этот процесс называется MLE. Как только мы нашли лучших учеников, мы можем перейти к прогнозам.В сеансе прогнозирования мы можем позволить ему ответить на задачу x' в руке Чжан Саня, а затем мы можем получить ответ, который он дал. у'.

Вторая стратегия: MAP

Отличие от первой стратегии в том, чтоВо второй стратегии мы прислушались к совету учителя., учитель - друг Чжан Саня. Учитель высказал свое мнение: «В оценках Сяомина и Сяохуа может быть некоторая влажность». _Когда мы сортируем учеников в соответствии с их оценками, предполагая, что двумя лучшими являются Сяомин и Сяохуа, если мы не будем учитывать оценку учителя, то мы обязательно возьмем Сяомин в качестве целевого объекта. Однако, поскольку в настоящее время учитель сделал несколько негативных комментариев о Сяомине и Сяохуа,Есть хороший шанс, что мы выберем третье место в классе, а не Сяомин или Сяохуа.

Мы также используем диаграмму для описания процесса второй стратегии. По сравнению с рисунком выше,Разница лишь в том, что здесь есть дополнительная оценка учителя, которую мы называем Prior.Другими словами, мы выбираем ученика (которого можно рассматривать как образец), которого мы считаем лучшим, основываясь на предыдущей успеваемости ученика и оценке учителя. После этого его можно попросить ответить на задачу г-на Чжана x' и получить его ответ y'. Весь процесс аналогичен оценке и прогнозированию MAP.

Тут у некоторых читателей могут возникнуть сомнения:Как оценка учителя (предварительная) сочетается с прошлой работой ученика (наблюдение)? ". Чтобы ответить на этот вопрос, мы должны выявить очень известную теорему, называемую теоремой Байеса, которая показана на рисунке ниже. Элемент слева — это часть MAP, которую необходимо оптимизировать.По теореме Байеса этот элемент можно разложить на MLE (первая стратегия) и Prior, который является оценкой учителя. Здесь знаменатель представляет собой постоянный член (Константа), поэтому не принимайте его во внимание.

Третья стратегия — байесовская

Наконец, мы вводим третью стратегию. Эта стратегия должна быть понятной многим.На самом деле, она заключается в том, чтобы каждый мог участвовать в решении сложных задач Чжан Саня, но в конце концов мы получаем окончательный ответ с помощью некоторых методов взвешенного среднего. **Например, есть три студента, и мы ничего не знаем об этих трех студентах. Задав вопрос, первый студент ответил на «А», второй студент ответил на «А», а третий студент ответил на «В». В этом случае мы можем в основном принять A в качестве стандартного ответа. Тогда рассмотрим немного более сложную ситуацию. Предположим, мы знаем из их прошлых выступлений, что третий ученик много раз выигрывал золотые медали на Национальных Олимпийских играх. Что нам делать в это время? очевидно,В этом случае мы должны дать третьему ученику более высокий голос, чем двум другим ученикам..

Мы применяем вышеизложенное мышление к вопросу Чжан Саня, что фактически эквивалентно тому, что все студенты факультета информатики участвуют в ответе на этот вопрос, а затем суммируют их ответы и получают окончательный ответ. Если мы знаем силу дискурса (вес) каждого студента, этот процесс агрегации является детерминированным. Но как получить право выступления (вес) каждого ученика?Вот что делает байесовская оценка!

Мы используем следующий рисунок, чтобы описать весь процесс байесовской оценки и прогнозирования. Подобно MAP, мы знаем результаты трех последних экзаменов каждого учащегося (D) и оценку учителя (Prior). Но в отличие от MAP, ** наша цель здесь уже не «выбрать лучших учеников», а получить голос (вес) каждого ученика через данные наблюдения (D), ** и все эти веса в сумме дают 1, что эквивалентно допустимому распределению.

Подводя итог, в соответствии с третьей стратегией,Учитывая результаты прошлых тестов (D) и оценку учителя (Prior), наша цель — оценить распределение весов студентов,также называемыйPosterior Distribution. Как оценить это распределение? Эта часть - то, что делает байесовское оценивание.Есть много способов сделать это, таких как MCMC, вариационный метод и т. д., но это не является предметом этой статьи, поэтому здесь не будет объясняться далее, заинтересованные читатели могут обратить внимание к более поздней колонке по Байесу. Думая с интуитивной точки зрения, поскольку мы знаем прошлые оценки каждого ученика, мы можем легко понять их уровень способностей, а затем оценить голос (вес) каждого ученика.

Как только мы получим это распределение (то есть вес каждого учащегося), мы сможем делать прогнозы способом, аналогичным средневзвешенному, и те учащиеся с более высокими весами, естественно, будут иметь больше возможностей говорить.

Вышеизложенное является основным объяснением MLE, MAP и байесовской оценки. Ниже мы попытаемся ответить на два распространенных вопроса.

В: Поскольку мы наблюдаем все больше и больше данных, оценка MAP постепенно приближается к MLE, Как вы понимаете это предложение?

Затем мы используем предыдущий пример MAP (вторая стратегия). Здесь мы вносим небольшое изменение в исходный вопрос. В предыдущем примере мы предполагали, что можем получить каждого студентаРезультаты последних трех экзаменов.Но здесь мы также предполагаем, что прошлое каждого студентаРезультаты 100 экзаменов.

Итак, какие изменения принесут такие изменения? Если подумать, то на самом деле это довольно легко понять. Представим себе два таких сценария. Предположим, мы знаем, что некий ученик имеет отличные оценки на последних трех экзаменах, но учитель говорит нам, что способности ученика не очень хорошие, тогда мы, скорее всего, доверимся учителю, ведь сдать только три экзамена сложно. , Получить всестороннее представление о студенте. Но вместо этого предположим, что мы узнаем, что студент1-е место в классе на всех последних 100 экзаменах, но при этом учитель сказал нам, что способности ученика не очень, то какая реакция будет у нас в это время? Два-три экзамена можно считать удачей, но трудно приравнять удачу к тому, чтобы быть первым 100 раз подряд, верно? Можно даже усомниться в характере учителя, не намеренно ли он клевещет на других?

То есть, когда мы наблюдаем все больше и больше данных, достоверность информации, которую мы получаем из данных, выше, наоборот, важность обратной связи, предоставляемой учителем (Приором), будет постепенно уменьшаться. В идеале, когда у нас есть бесконечное количество выборок данных, MAP будет аппроксимировать оценку MLE, и рассуждения те же.

В: Почему байесовская оценка сложнее, чем MLE и MAP?

Напомним, что и MLE, и MAP ищут лучшего ученика. Байесовская оценка оценивает вес каждого ученика. В первом случае для выявления лучших учеников достаточно знать лишь «относительную» степень успеваемости учащихся. Это как понять? Например, в классе есть три ученика A, B и C. Мы знаем, что ученик A лучше, чем B, и мы знаем, что ученик B лучше, чем C. В это время мы можем сделать вывод, что ученик A лучше всех. лучший, и нам не нужно знать, что такое оценка A, какова оценка B ...

Но в режиме байесовской оценки мы должны знать абсолютный вес каждого ученика., потому что ответ, который мы получаем в конце, представляет собой средневзвешенное значение ответов, данных всеми студентами, а веса всех студентов должны составлять в сумме 1 (сумма интегралов любого распределения должна быть равна 1). Предположим, мы знаем значение способностей каждого учащегося, a1, a2,....an, можно ли его использовать в качестве веса? Очевидно нет. Чтобы получить веса, одним из самых простых способов является сначала суммирование, а затем вычисление весов. Например, сначала вычислите a1+...+an = S, а затем используйте a1/S в качестве веса. Вроде бы ничего сложного, но нужна ли еще одна операция сложения?

Легко видеть, что временная сложность этой операции сложения составляет O(n) в зависимости от общего количества студентов. Это не проблема, если наше пространство гипотез составляет всего несколько сотен студентов. Но на практике, например, если мы предположим, что наша модель использует машину опорных векторов, а затем сравним каждое допустимое решение в пространстве гипотез с учеником, сколько учеников будет в этом пространстве гипотез? Их бесчисленное множество! ! , то есть эту операцию сложения необходимо выполнить над бесконечным числом чисел. Конечно, эта операция сложения будет существовать и в интегральном виде, но проблема в том, что этот интеграл обычно не имеет решения в закрытой форме, его приходится оценивать приближенно, что и делают MCMC или Вариационные методы, без дополнительных пояснений. здесь.

Несколько важных выводов из этой статьи:

  • Каждая модель определяет пространство гипотез, которое обычно содержит бесконечное количество возможных решений;
  • MLE не учитывает априорное (априорное), в то время как MAP и байесовская оценка учитывают априорное (априорное);
  • MLE и MAP предназначены для выбора относительно лучшей модели (точечная оценка), в то время как байесовский метод оценивает апостериорное распределение (апостериорное распределение) через данные наблюдения и принимает групповые решения через апостериорное распределение, поэтому цель последнего не о выборе лучшей модели;
  • Когда количество выборок бесконечно, MAP теоретически приближается к MLE;
  • Байесовская оценка сложна и обычно аппроксимируется алгоритмами аппроксимации, такими как MCMC;

Наконец-то выложил сводную картинку:


теоретический анализ

один. машинное обучение

Основная идея    состоит в том, чтобы изучать правила из прошлого опыта, чтобы предсказывать новые вещи. Для обучения с учителем, чем больше количество полезных образцов, тем точнее обучение.

Используйте следующую диаграмму, чтобы представить процесс машинного обучения и содержащиеся в нем знания:

Проще говоря:

  1. Сначала определите нашуПредположение модели: такие как линейная классификация, линейная регрессия, логистическая регрессия, SVM, сеть глубокого обучения и т. д.
  2. Как мы измеряем качество моделей, которые мы изучаем? определениефункция потерь(целевая функция), потерянная функция, например, квадратичная потеря
  3. как оптимизировать гипотетическую модель иoptimizationпроцесс. Проще говоря, это выбор алгоритма (например, градиентный спуск, метод Ньютона и т. д.), оптимизация целевой функции и, наконец, получение оптимального решения;
    1. В разных моделях используются разные алгоритмы, например, логистическая регрессия обычно решается с помощью градиентного спуска, нейронные сети решаются с помощью обратного дифференцирования, а байесовские модели решаются с помощью MCMC.
    2. Машинное обучение = модель + оптимизация(разные алгоритмы)
  4. Возникает еще вопрос, как измерить сложность модели? Поскольку сложные модели склонныпереоснащение. Решение переобучения состоит в том, чтобы добавитьРегуляризация
  5. После того, как вышеуказанные проблемы решены, как мы можем судить, что это решение действительно хорошее? Используйте **перекрестную проверку**, чтобы подтвердить это.

два. ML против MAP против байесовского

  1. ML (оценка максимального правдоподобия): задаются параметры модели, а затем попытайтесь максимизировать p (D | параметр). То есть вероятность увидеть выборку с заданными параметрами. Цель состоит в том, чтобы найти параметр, который максимизирует предыдущую вероятность.
    1. Логистическая регрессия основана на машинном обучении;
    2. Недостаток: модель не включает наши предварительные знания.
  2. MAP (Максимальная апостериорная оценка): максимизируйте p (параметр | D).
  3. Байесовский: наши прогнозы учитывают все возможные параметры, то есть все пространства параметров (распределения параметров).
  • И ML, и MAP принадлежат к одной и той же категории, называемой (freqentist), и конечная цель одна и та же: найти оптимальное решение, а затем использовать оптимальное решение для прогнозирования.

три. МЛ

Нам нужно максимизировать p(D|параметр), и эту часть оптимизации обычно можно получить, установив производную на 0. Однако оценка ML не принимает во внимание предварительные знания и склонна к переобучению.

Например, для оценки рака врач может принимать 100 пациентов в день, но количество пациентов, у которых окончательно диагностирован рак, составляет 5 человек.В модели оценки ML мы получаем вероятность заболеть раком 0,05.

Это явно нецелесообразно, так как мы знаем из опыта, что эта вероятность будет намного ниже. Однако оценка ML не включает эти знания в модель.

Четыре. КАРТА

С помощью приведенного выше вывода мы можем обнаружить, что самая большая разница между MAP и ML заключается в элементе p (параметр), поэтому можно сказать, что MAP может просто решить недостатки ML, связанные с отсутствием предварительных знаний.После добавления предварительных знаний оптимизируйте функция потерь.

На самом деле член p (параметр) просто играет роль регуляризации. Например: если предполагается, что p (параметр) подчиняется распределению Гаусса, это эквивалентно добавлениюL2 norm; Если предполагается, что p (параметр) подчиняется распределению Лапласа, это эквивалентно добавлениюL1 norm.

пять. байесовский

Еще раз: ML и MAP дадут толькооптимальное решение, Однако байесовская модель даст распределение параметров, таких как параметры модели, предполагая, что в пространстве параметров есть параметр 1, параметр 2, параметр 3, ... параметр N, байесовская модель изучает эти важность параметров (то есть распределения), а затем, когда мы делаем прогнозы для новых выборок, пустьвсе моделиПрогнозируйте вместе, но у каждой модели будут свои веса (веса — это изученные распределения). Окончательное решение принимают все оценки исходя из их весов.

Большим преимуществом ансамбля модели является то, что он может уменьшить дисперсию.Эта инвестиция очень похожа.Например, если мы инвестируем в много разных типов акций, риск будет ниже, чем при инвестировании в определенную акцию.

шесть. Частотный и байесовский упомянуты выше, в чем разница между ними?

Подведите итог с кратким примером ответа. Например, если вы наблюдаете за классом и у вас есть вопрос, на который вы хотите знать ответ, вы можете задать его всем учащимся в классе. Одно из решений — спросить одноклассника, который учился лучше всех. Другое решение — опросить всех одноклассников, а затем объединить ответы, но при их объединении они будут взвешены в соответствии с успеваемостью каждого одноклассника. Идея первой схемы аналогична ML, MAP, а второй схемы аналогична байесовской модели.

Семь. Сложность байесовского

Таким образом, основной технологией всей байесовской области является аппроксимация p(\theta|D), которую мы называемbayesian inference, Грубо говоря, основная проблема здесь состоит в том, чтобы аппроксимировать этот комплексный интеграл (интеграл), одно из решений состоит в том, чтобы использоватьАлгоритм Монте-Карло. Например, если я хочу посчитать средний рост всех сотрудников компании, то самый простой и грубый метод на данный момент — это попросить администратора измерить их по одному, а затем вычислить средний. Но хотите посчитать средний рост всех китайцев, как это сделать? (Очевидно, что невозможно измерить по одному)

которыйвыборка. Мы случайным образом выбираем некоторых людей, чтобы измерить их рост, а затем оцениваем национальных обозревателей на основе их роста. Конечно, чем больше количество выборок, тем точнее, репрезентативнее и точнее выборочные данные. Это идея управления алгоритмом Монте-Карло.

Другой пример:

Допустим, мы не знаем число пи, но хотим вычислить площадь круга. Это также может быть аппроксимировано путем выборки. Случайным образом рассыпьте несколько точек в квадрат, как показано на рисунке ниже, запишите количество точек, попавших в красную область, как n1, а количество точек, попавших в белую область, как n2, затем площадь четверти круг равен n1/( n1+n2). — Монте-Карло подумал

Итак, как оценивать непрерывные функции? Выборка n данных для аппроксимации конечного интегрального значения.

Предположим, мы хотим вычислить ожидаемое значение f(x), а также у нас есть распределение p(x). В это время мы можем продолжать делать некоторую выборку из распределения p(x), например x1, x2,...xn, Затем используйте эти выборочные значения для вычисления f(x), поэтому окончательный результат будет (f(x1) + f(x2), + f(xn))/ n

Однако выборка, упомянутая в приведенном выше примере, является независимой. То есть каждая выборка независима от других выборок и не влияет на выборку друг друга. Однако в реальных задачах бывают случаи, когда мы хотим ускорить выборку допустимых выборок. В этом вопросе обсуждается, как оптимизировать процесс выборки, что также является относительно большой темой в машинном обучении.

Повторим еще раз: с помощью упомянутого выше метода выборки мы можем аппроксимировать комплексные интегралы, вычислить площадь круга и вычислить средний рост населения страны. Но этот метод выборки является независимым, и иногда мы хотим, чтобы нашиИспользуйте меньше выборок для более точного приближения к цели, чтобы происходила выборкаЭтот вид исследований в одной области заключается в изучении того, как оптимизировать весь процесс отбора проб, чтобы сделать его более эффективным.

Метод выборки MCMC называетсяЦепь Маркова Метод Монте-Карло выборки, то есть каждый выборочный образец связан друг с другом.

Но алгоритм MCMC должен быть рассчитан на весь набор данных. То есть, чтобы получить выборку, вам нужно выполнить итерацию со всеми данными. Очевидно, что это неприменимо, когда N очень велико. И главная причина, ограничивающая развитие байесовских методов, заключается в слишком высокой вычислительной сложности. Поэтому наиболее волнующий вопрос в области Бейеди: как оптимизировать выборку, чтобы она могла изучать байесовскую модель в среде больших данных?

Пример снижения итерационной сложности:

Для логистической регрессии при использовании метода градиентного спуска для обновления параметров существует метод пакетного градиентного спуска (то есть использование всего набора данных для обновления параметров).

Итак, можно ли использовать эту идею в выборке MCMC?

Да! Динамика Ланжевена (один из алгоритмов MCMC) и стохастическая оптимизация (например, стохастический градиентный спуск) могут использоваться вместе. Таким образом, мы можем производить выборку через небольшое количество выборок, при этом эффективность выборки зависит не от N, а от m, который намного меньше N.


использованная литература

[1] Жадная технология MLE, MAP и байесовская оценка в машинном обучении [DB/OL].

[2] Jianghu Chick, Байесовская мысль и различия с оценкой максимального правдоподобия и максимальной апостериорной оценкой [DB/OL]. http://www.cnblogs.com/little-YTMM/p/5399532.html, 20 июня 2018 г.