Даже люди, которые изучали машинное обучениеMLE (оценка максимального правдоподобия), MAP (максимальная апостериорная оценка) и байесовская оценка (Bayesian)Еще можно быть в неведении. Для базовой модели ее обычно можно смоделировать с этих трех точек зрения, например, для логистической регрессии (логистическая регрессия):
MLE: Logistics Regression
MAP: Regularized Logistics Regression
Bayesian: Bayesian Logistic Regression
Эта статья сочетает в себе практические примеры, чтобы объяснить существенные различия между тремя простыми для понимания способами, надеясь помочь читателям устранить препятствия в их понимании.
Предварительная точка знаний: Пространство гипотез
Что такое пространство гипотез? Мы можем понять это так. Машинное обучение включает в себя различные алгоритмы, такие как линейная регрессия, машины опорных векторов, нейронные сети, деревья решений, GDBT и другие. Когда мы моделируем, первым шагом является выбор конкретного алгоритма, такого как «машина опорных векторов».После выбора алгоритма мы выбрали пространство гипотез.В пространстве гипотезы у нас обычно бесконечное количество разных решений (или можно понимать как модели),Что делает алгоритм оптимизации (например, градиентный спуск), так это выбирает лучшее решение или решения/модели., конечно, процесс оптимизации зависит от выборочных данных. Например, если мы решим использовать SVM, это будет эквивалентно нашему дополнительному решению/модели, сконцентрированному в верхней половине (синие точки).
Конкретный "игрушечный" вопрос
«Чжан Сан столкнулся с математической проблемой и хотел обратиться за помощью к другим. Немного подумав, он обнаружил, что его друг был преподавателем на факультете компьютерных наук Университета Цинхуа. Поэтому он решил спросить студентов факультета компьютерных наук. Университет Цинхуа за помощью Какой компьютер использовал Чжан Сан?СтратегияИдти за помощью?
Здесь «Компьютерный отдел Цинхуа» представляет собой пространство гипотез. В этом пространстве гипотез каждого ученика можно рассматривать как (экземпляр) модели.
Для Чжан Саня у него естьтри разные стратегииможешь выбрать.
Первая стратегия: MLE
Первая стратегия состоит в том, чтобы выбрать студентов факультета с лучшими прошлыми оценками., и пусть он решит проблему. Например, мы можем выбрать студентов с лучшими результатами на последних трех экзаменах.
Общий процесс обучения делится на «процесс обучения» и «процесс прогнозирования». Схему первой стратегии можно представить следующей диаграммой.это здесь,процесс изученияЭто равносильно выбору студентов с лучшими оценками из всех студентов факультета.Поэтому "стенограмма студенческого прошлого" вот что мы знаемтренировочные данныеD, выберите учащихся с лучшими оценками (рассчитайте исторический средний балл и выберите самый высокий), этот процесс называется MLE. Как только мы нашли лучших учеников, мы можем перейти к прогнозам.В сеансе прогнозирования мы можем позволить ему ответить на сложные проблемы в руках Чжан Саня.x', и тогда вы можете получить ответ, данный имy'.
Вторая стратегия: MAP
Отличие от первой стратегии в том, чтоВо второй стратегии мы прислушались к совету учителя., учитель - друг Чжан Саня. Учитель высказал свое мнение:
Когда мы сортируем учеников в соответствии с их оценками, предполагая, что двумя лучшими являются Сяомин и Сяохуа, если мы не будем учитывать оценку учителя, мы определенно возьмем Сяомин в качестве целевого объекта. Однако, поскольку в настоящее время учитель сделал несколько негативных комментариев о Сяомине и Сяохуа,Есть хороший шанс, что мы выберем третье место в классе, а не Сяомин или Сяохуа.
Мы также используем диаграмму для описания процесса второй стратегии. По сравнению с рисунком выше,Разница лишь в том, что здесь есть дополнительная оценка учителя, которую мы называем Prior.Другими словами, мы выбираем ученика (которого можно рассматривать как образец), которого мы считаем лучшим, основываясь на предыдущей успеваемости ученика и оценке учителя. После этого его можно попросить ответить на задачу г-на Чжана x' и получить его ответ y'. Весь процесс аналогичен оценке и прогнозированию MAP.
Тут у некоторых читателей могут возникнуть сомнения:
. Чтобы ответить на этот вопрос, мы должны ввести очень известную теорему под названиемтеорема Байеса,Как показано ниже. Элемент слева — это та часть MAP, которую необходимо оптимизировать.С помощью теоремы Байеса этот элемент можно разложить на MLE (первая стратегия) и Prior, являющуюся оценкой учителя. Здесь знаменатель является постоянным членом (Constant), поэтому не принимайте его во внимание.
Третья стратегия — байесовская
Наконец, мы вводим третью стратегию. Эта стратегия должна быть постижима для многих людей,На самом деле, это позволяет всем участвовать в решении проблем Чжан Саня., но в итоге получаем окончательный ответ некоторым взвешенным усреднением.Например, есть три студента, и мы ничего не знаем о положении этих трех студентов. Задав вопрос, первый студент ответил на «А», второй студент ответил на «А», а третий студент ответил на «В». В этом случае мы можем в основном принять A в качестве стандартного ответа. Затем рассмотрим несколько более сложную ситуацию. Предположим, из их прошлых выступлений мы знаем, что третий ученик много раз выигрывал золотые медали на национальных Олимпийских играх. Что нам делать в это время? очевидно,В этом случае мы должны дать третьему ученику более высокий голос, чем двум другим ученикам..
Мы применяем вышеизложенное мышление к вопросу Чжан Саня, что фактически эквивалентно тому, что все студенты факультета информатики участвуют в ответе на этот вопрос, а затем суммируют их ответы и получают окончательный ответ. Если мы знаем дискурсивную силу (вес) каждого студента, этот процесс агрегирования является детерминированным. Но как получить право выступления (вес) каждого ученика?Вот что делает байесовская оценка!
Мы используем следующий рисунок, чтобы описать весь процесс байесовской оценки и прогнозирования. Подобно MAP, мы знаем результаты трех последних экзаменов каждого учащегося (D) и оценку учителя (Prior). Но в отличие от МАП,Наша цель здесьбольше никогдаДа - "выбрать лучших учеников", но по наблюдению за данными (D) получить голос (вес) каждого ученика,И все эти веса в сумме дают 1, что эквивалентно правильному распределению.
Подводя итог, в соответствии с третьей стратегией,Учитывая результаты прошлых тестов (D) и оценку учителя (Prior), наша цель — оценить распределение весов студентов,также называемыйPosterior Distribution. Как оценить это распределение? Эта часть - то, что делает байесовское оценивание.Есть много способов сделать это, таких как MCMC, вариационный метод и т. д., но это не является предметом этой статьи, поэтому здесь не будет объясняться далее, заинтересованные читатели могут обратить внимание к более поздней колонке по Байесу. Думая с интуитивной точки зрения, поскольку мы знаем прошлые оценки каждого ученика, мы можем легко понять их уровень способностей, а затем оценить голос (вес) каждого ученика.
Как только мы получим это распределение (то есть вес каждого учащегося), мы сможем делать прогнозы способом, аналогичным средневзвешенному, и те учащиеся с более высокими весами, естественно, будут иметь больше возможностей говорить.
Вышеизложенное является основным объяснением MLE, MAP и байесовской оценки. Ниже мы попытаемся ответить на два распространенных вопроса.
В: Поскольку мы наблюдаем все больше и больше данных, оценка MAP постепенно приближается к MLE, Как вы понимаете это предложение?
Затем мы используем предыдущий пример MAP (вторая стратегия). Здесь мы вносим небольшое изменение в исходный вопрос. В предыдущем примере мы предполагали, что можем получить каждого студентапоследние три разаоценки на экзаменах.Но здесь мы также предполагаем, что прошлое каждого студентаРезультаты 100 экзаменов.
Итак, какие изменения принесут такие изменения? Если подумать, то на самом деле это довольно легко понять. Представим себе два таких сценария. Предположим, мы знаем, что некий ученик имеет отличные оценки на последних трех экзаменах, но учитель говорит нам, что способности ученика не очень хорошие, тогда мы, скорее всего, доверимся учителю, ведь сдать только три экзамена сложно. , Получить всестороннее представление о студенте. Но вместо этого предположим, что мы узнаем, что студент1-е место в классе на всех последних 100 экзаменах, но при этом учитель сказал нам, что способности ученика не очень, то какая реакция будет у нас в это время? Два-три экзамена можно считать удачей, но трудно приравнять удачу к тому, чтобы быть первым 100 раз подряд, верно? Можно даже усомниться в характере учителя, не намеренно ли он клевещет на других?
То есть, когда мы наблюдаем все больше и больше данных, достоверность информации, которую мы получаем из данных, выше, наоборот, важность обратной связи, предоставляемой учителем (Приором), будет постепенно уменьшаться. В идеале, когда у нас есть бесконечное количество выборок данных, MAP будет аппроксимировать оценку MLE, и рассуждения те же.
В: Почему байесовская оценка сложнее, чем MLE и MAP?
Напомним, что и MLE, и MAP ищут лучшего ученика. Байесовская оценка оценивает вес каждого ученика. В первом случае для выявления лучших учеников достаточно знать «относительную» степень успеваемости среди учащихся. Это как понять? Например, в классе есть три ученика A, B и C. Мы знаем, что ученик A лучше, чем B, и мы знаем, что ученик B лучше, чем C. В это время мы можем сделать вывод, что ученик A лучше всех. лучший, и нам не нужно знать, что такое оценка A, какова оценка B ...
Но в режиме байесовской оценки яМы должны знать абсолютный вес каждого студента, потому что ответ, который мы получаем в конце, представляет собой средневзвешенное значение ответов, данных всеми студентами, а веса всех студентов должны составлять в сумме 1 (сумма интегралов любого распределения должна быть равна 1). Предположим, мы знаем значение способностей каждого учащегося, a1, a2,....an, можно ли его использовать в качестве веса? Очевидно нет. Чтобы получить веса, одним из самых простых способов является сначала суммирование, а затем вычисление весов. Например, сначала вычислите a1+...+an = S, а затем используйте a1/S в качестве веса. Вроде бы ничего сложного, но нужна ли еще одна операция сложения?
Легко видеть, что временная сложность этой операции сложения составляет O(n) в зависимости от общего количества студентов. Это не проблема, если наше пространство гипотез составляет всего несколько сотен студентов. Но на практике, например, если мы предположим, что наша модель использует машину опорных векторов, а затем сравним каждое допустимое решение в пространстве гипотез с учеником, сколько учеников будет в этом пространстве гипотез? Их бесчисленное множество! ! , то есть эту операцию сложения необходимо выполнить над бесконечным числом чисел. Конечно, эта операция сложения будет существовать и в интегральном виде, но проблема в том, что этот интеграл обычно не имеет решения в закрытой форме, его приходится оценивать приближенно, что и делают MCMC или Вариационные методы, без дополнительных пояснений. здесь.
Несколько важных выводов из этой статьи:
Каждая модель определяет пространство гипотез, которое обычно содержит бесконечное количество возможных решений;
MLE не учитывает априорное (априорное), в то время как MAP и байесовская оценка учитывают априорное (априорное);
MLE и MAP предназначены для выбора относительно лучшей модели (точечная оценка), в то время как байесовский метод оценивает апостериорное распределение (апостериорное распределение) через данные наблюдения и принимает групповые решения через апостериорное распределение, поэтому цель последнего не о выборе лучшей модели;
Когда количество выборок бесконечно, MAP теоретически приближается к MLE;
Байесовская оценка сложна и обычно аппроксимируется алгоритмами аппроксимации, такими как MCMC;
Наконец-то выложил сводную картинку: