Теория вероятностей есть не что иное, как математическое выражение здравого смысла.
- Лаплас
содержание
0. Предисловие
1. История
1.1 Пример: двусмысленность в естественном языке
1.2 Формула Байеса
2. Орфографическая коррекция
3. Сравнение моделей и байесовская бритва Оккама
3.1 Новый взгляд на исправление орфографии
3.2 Сравнение моделей и байесовская бритва Оккама
3.3 Принцип минимальной длины описания
3.4 Оптимальный байесовский вывод
4. Байесовский везде
4.1 Сегментация китайских слов
4.2 Статистический машинный перевод
4.3 Байесовское распознавание изображений, анализ путем синтеза
4.4 Алгоритм EM и кластеризация на основе моделей
4.5 Максимальное правдоподобие и метод наименьших квадратов
5. Наивный Байес (также известный как «Байес идиота»)
5.1 Спам-фильтр
5.2. Почему наивный байесовский метод удивительно хорош — теоретическое объяснение
6. Иерархические байесовские модели
6.1 Скрытая марковская модель (HMM)
7. Байесовские сети
0. предисловие
Это научно-популярная статья о байесовских методах, я постараюсь использовать меньше формул, больше простых описаний и больше практических примеров. Для более строгих формул и расчетов я приведу ссылки, где это уместно. Байесовские методы оказались очень общими и мощными структурами логического вывода, и в этой статье вы найдете много интересных приложений.
1. история
Подробная жизнь одноклассника Томаса Байеса находится вздесь. Вот выдержка из википедии:
Так называемый байесовский метод восходит к написанной им при жизни статье для решения задачи «обратной вероятности», которая была опубликована его другом после его смерти. До того, как Байесиан написал эту статью, люди могли рассчитать «прямую вероятность», например: «Предположим, что в мешке есть N белых и M черных шаров, вы протягиваете руку и касаетесь его, какова вероятность найти черный шар? ?». И закономерен вопрос наоборот: «Если мы заранее не знаем соотношение черных и белых шаров в мешке, а закрываем глаза и вынимаем один (или несколько) шаров и наблюдаем цвета этих шаров , то мы какие предположения можно сделать о пропорции черных и белых шаров в мешке." Эта задача является так называемой обратной задачей.
На самом деле работа Байеса в то время была лишь непосредственной попыткой решить эту проблему, и неясно, осознавал ли он тогда содержащиеся в ней глубокие идеи. Однако позднее байесовский метод захватил теорию вероятностей и распространил свое применение на различные проблемные области.Тень байесовского метода можно увидеть везде, где требуется вероятностное предсказание.В частности, байесовский метод является ядром машинного обучения.Один из методы. Глубокая причина этого заключается в том, что сам реальный мир неясен, а способность человека к наблюдению ограничена (в противном случае нет необходимости заниматься большой частью науки — если предположить, что мы можем непосредственно наблюдать за работой электронов, нам также нужно к Вы спорите об атомных моделях?), то, что мы ежедневно наблюдаем, это только результаты на поверхности вещей. На примере взятия шариков из мешка только что мы часто знаем только, какого цвета взяты шарики вне, но не сразу увидеть реальную ситуацию внутри мешка. В настоящее время нам необходимо предоставить предположение (гипотеза, более строгий термин — «гипотеза», а «предположение» используется здесь для облегчения понимания), так называемое предположение, конечно, является неопределенным (их может быть много). видов или даже бесчисленное множество. Все догадки могут удовлетворить текущие наблюдения),Но это точно не слепое пятно - конкретно нам нужно сделать две вещи: 1. Рассчитать вероятность различных догадок. 2. Выясните, какое предположение является лучшим. Во-первых, вычислить апостериорную вероятность конкретной догадки или для непрерывного пространства догадок вычислить функцию плотности вероятности догадки. Второй - так называемое сравнение моделей, Если сравнение моделей не учитывает априорную вероятность, это метод максимального правдоподобия.
1.1 Пример: двусмысленность в естественных языках
Вот пример неопределенности в естественном языке. Когда вы видите это предложение:
The girl saw the boy with a telescope.
Каковы ваши предположения о значении этого предложения? Обычные люди определенно сказали бы: «Девочка увидела мальчика в подзорную трубу» (т. е. ваше предположение о фактической грамматической структуре, стоящей за этим предложением, таково: «Девочка увидела-в-подзорную трубу мальчика»). Однако, если вы подумаете об этом, вы обнаружите, что это предложение можно полностью интерпретировать как: Девушка увидела мальчика с телескопом (т.е.: Девушка увидела мальчика с телескопом). Так почему же каждый из нас может быстро разрешить эту двусмысленность в обычной жизни? Какое мышление скрывается за этим? Оставим объяснение на потом.
1.2 байесовская формула
Как появилась формула Байеса?
Давайте все же воспользуемся примером из википедии:
В школе 60% мальчиков и 40% девочек. Мальчики всегда носят брюки, а девочки — полубрюки и полуюбки. Имея эту информацию, мы можем легко рассчитать, «какова вероятность того, что учащийся будет случайным образом выбран для ношения брюк и юбки», что является вычислением «прямой вероятности», упомянутой выше. Однако, предположим, вы идете по кампусу, и к вам приближается студент в брюках (к сожалению, вы очень похожи, вы можете только видеть, носит ли он или она брюки, и не можете определить его или ее пол), можете ли вы сделать вывод о вероятность того, что он или она мальчик?
Некоторые исследования когнитивистики («Решение и суждение» иRationality for Mortals«Глава 12: Дети тоже могут решать байесовские задачи»), мы не очень хороши в формализованных байесовских задачах, но мы хороши в эквивалентных задачах, представленных в частотной форме. Здесь мы могли бы с таким же успехом перефразировать проблему так: вы находитесь в кампусе.случайная прогулка, встретил N человек в брюках (предполагая, что вы не можете напрямую определить их пол), спросите об этом Сколько девочек и мальчиков среди N человек?
Вы говорите, это не так просто: подсчитайте, сколько людей в школе носят брюки, а потом подсчитайте, сколько в этих людях девочек, не так ли?
Давайте посчитаем: предположим, что общее количество людей в школе равно U. 60% мальчиков носят брюки, поэтому мы получаем U * P(Boy) * P(Pants|Boy) (мальчики) в брюках (где P(Boy) - мальчик с вероятностью = 60%, здесь мы можем Это просто понять как доля мальчиков; P(Pants|Boy) – условная вероятность, то есть какова вероятность носить брюки при условии Boy, здесь 100%, потому что все мальчики носят брюки). Половина (50%) из 40% девушек носят брюки, поэтому мы получаем U * P(Девушка) * P(Брюки|Девушка) штаны (девочки). добавить в общей сложности U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl) в брюках, из которых U * P(Girl) * P(Pants|Girl) девушки . Сравнение этих двух - это ответ, который вы просите.
Давайте формализуем этот ответ: мы запрашиваем P(Girl|Pants) (сколько девушек среди человека в брюках), а результат нашего вычисления U * P(Girl) * P(Pants|Girl) / [U * P(мальчик) * P(штаны|мальчик) + U * P(девочка) * P(штаны|девочка)] . Легко обнаружить, что общее количество людей в кампусе здесь не имеет значения и может быть исключено. так получить
P(Girl|Pants) = P(Girl) * P(Pants|Girl) / [P(Boy) * P(Pants|Boy) + P(Girl) * P(Pants|Girl)]
Обратите внимание, что если приведенная выше формула сокращена, знаменатель на самом деле будет P(Pants) , а числитель на самом деле P(Pants, Girl) . И это соотношение естественно читается как: сколько девушек (P(Pants, Girl)) среди людей, которые носят брюки (P(Pants)).
Штаны и Мальчик/Девочка в приведенной выше формуле могут относиться ко всему, поэтому общая форма такова:
P(B|A) = P(A|B) * P(B) / [P(A|B) * P(B) + P(A|~B) * P(~B) ]
Он сжимается до:
P(B|A) = P(AB) / P(A)
На самом деле это эквивалентно:
P(B|A) * P(A) = P(AB)
Недаром Лаплас говоритТеория вероятностей просто выражает здравый смысл в математических формулах..
Однако постепенно мы обнаружим, что за кажущейся обычной байесовской формулой скрывается очень глубокий принцип.
2. исправление орфографии
Питер Норвиг, один из авторов классической книги «Искусственный интеллект: современный подход», однажды написал статью о том, как написать программу проверки/корректора орфографии (оригинал наздесь, переведенная версия Сюй Ю находится вздесь, эта статья очень глубокая и простая, и ее настоятельно рекомендуется прочитать), в которой используется байесовский метод.Здесь мы не намерены повторять написанную им статью, а кратко представим ее основные идеи.
Во-первых, что нам нужно спросить: "Какой вопрос?"
Проблема в том, что мы видим, что пользователь ввел слово, которого нет в словаре, и нам нужно угадать: «Какое слово этот парень действительно хочет ввести?» На языке, который мы только что формализовали, нам нужно спросить:
P(Угадываем слово, которое он хотел напечатать | слово, которое он напечатал на самом деле)
эта вероятность. и найдите угаданное слово, которое делает эту вероятность наибольшей. Очевидно, что наша догадка не обязательно уникальна, точно так же, как приведенный выше пример двусмысленности в естественном языке; здесь, например, если пользователь вводит: thew , то хочет ли он ввести the или thaw ? Какое предположение более вероятно? К счастью, мы можем использовать формулу Байеса, чтобы напрямую вывести их соответствующие вероятности, мы могли бы также обозначить наши множественные предположения как h1 h2 .. (h обозначает гипотезу), все они принадлежат конечному и дискретному пространству предположений H (есть только всего столько слов), запишите слова, фактически введенные пользователем, как D (D означает Data , то есть наблюдаемые данные), поэтому
P(Наше предположение 1 | слова, которые он на самом деле напечатал)
Абстрактно это можно записать так:
P(h1 | D)
Точно так же для нашего предположения 2 это P(h2 | D). Может пожелать унифицировать как:
P(h | D)
Применив формулу Байеса один раз, получим:
P(h | D) = P(h) * P(D | h) / P(D)
P(D) одинакова для разных конкретных предположений h1 h2 h3 .. , поэтому мы можем игнорировать эту константу при сравнении P(h1 | D) и P(h2 | D). То есть нам нужно знать только:
P(h | D) ∝ P(h) * P(D | h) (Примечание: этот символ означает «пропорционально», а не бесконечность. Обратите внимание, что в правом конце символа есть небольшой пробел.)
Абстрактный смысл этой формулы таков: для данных наблюдений предположение является хорошим или плохим, в зависимости от «вероятности того, что само предположение является независимым (априорная вероятность, априор)» и «это предположение генерирует данные, которые мы наблюдаем». произведение размера правдоподобия» (правдоподобие). Конкретно в нашем примере с w подразумевается, что вероятность того, что пользователь на самом деле захочет ввести тег, зависит от вероятности (частоты) того, что он сам используется в словаре (априорная вероятность), и вероятности того, что пользователь захочет ввести тегированный текст. как произведение правдоподобия (вероятности) ж.
Следующая вещь очень проста: для каждого возможного угадываемого слова вычисляем значение P(h) * P(D | h), а затем берем наибольшее из них, чтобы получить наиболее надежное предположение.
небольшое примечание: корректор орфографии Norvig извлекает только все известные слова в пределах расстояния редактирования, равного 2. Это делается для того, чтобы не перебирать каждое слово в словаре для вычисления их P(h) * P(D | h) , но такой подход вносит некоторую ошибку для экономии времени. Но опять же, действительно ли мы, люди, возвращаемся назад и просматриваем все возможные слова, чтобы вычислить их апостериорные значения? невозможно. На самом деле, согласно точке зрения когнитивной нейронауки, мы сначала делаем восходящее извлечение ассоциаций, основанное на неправильном слове, и извлекаем те слова-кандидаты, которые могут быть настоящими словами. извлечение, которое может извлечь ограниченный набор кандидатов на основе некоторых фрагментов шаблона неправильного слова, очень быстро сузить область поиска (например, я набираю в Объяснение, в слове достаточно информации, чтобы заставить наш мозг сузить возможность до объяснения слова за постоянное время, что касается того, какие подсказки - например, слоги - извлекаются, и как это происходит в биологической нейронной сети? этого механизма извлечения до сих пор остается невыясненной областью). Затем мы делаем нисходящий прогноз для этих ограниченных предположений, чтобы увидеть, какое из них оказывает наилучшее влияние на наблюдаемые данные (то есть неправильное слово), и как измерить эффективность прогнозирования, используя формулу Байеса. P(h) * P(D | h) - хотя мы, вероятно, использовалинекоторые эвристики для упрощения вычислений. Мы также обратимся к такому восходящему извлечению ассоциаций позже.
3. Сравнение моделей с бритвой Оккама
3.1 Повторное исправление орфографии
После введения байесовской орфографической коррекции возникает естественный вопрос: "Зачем?«Зачем использовать формулу Байеса? Почему здесь работает формула Байеса? Мы легко можем понять, почему формула Байеса верна для задачи о штанах и юбке для мальчика и девочки, представленной ранее. Но почему здесь?
Чтобы ответить на этот вопрос, общий ход мыслей состоит в том, чтобы подумать о следующем:Должно ли быть так?Потому что, если вы придумаете другой способ сделать это, и он доказал свою эффективность, то сравнение его с текущим может дать ценную информацию. Итак, можете ли вы придумать другие решения для исправления орфографических ошибок?
В любом случае, одним из наиболее распространенных вариантов является выборизменить расстояниенедавний. Однако и the, и Thaw имеют расстояние редактирования, равное 1, от w. Как это может быть сделано? Вы сказали, не паникуйте, с этим все еще легко справиться. Посмотрим, какой из них с большей вероятностью будет ошибочно принят за w. Мы заметили, что буква е и буква w стоят очень близко на клавиатуре, и когда сводит безымянный палец, я случайно набираю лишнюю w, и the становится w. С другой стороны, оттепель неправильно написана как относительно менее вероятно, потому что e и a находятся дальше друг от друга и используют пальцы, которые отличаются на один палец (один средний палец и один мизинец, в отличие от пальцев, используемых e и w, которые расположены близко друг к другу - нейробиологические данные свидетельствуют о том, что близость Легко сцепить между физическими объектами). Хорошо, отлично, потому что теперь вы используете метод максимального правдоподобия, или, грубо говоря, вы вычисляете h, который максимизирует P(D | h).
А что вычисляет байесовский метод? есть P(h) * P(D | h) . Есть лишний P(h) . Мы только что сказали, что это дополнительное P(h) является априорной вероятностью конкретного предположения. Зачем смешивать априорную вероятность? Разве это не максимальная вероятность того, что вы только что сказали «хорошо»? Красноречиво указано, что это более надежная догадка. В чем проблема? В этом случае давайте начнем с придирки к максимальной вероятности — мы предполагаем, что вероятность обоих одинакова или очень похожа, так что трудно отличить, какая догадка более надежна? Например, если пользователь вводит tlp, это top или tip? (Этот пример не очень хорош, потому что частоты слов top и tip все еще могут быть близки, но мы пока не можем придумать хороший пример английских слов, так что давайте просто предположим, top встречается гораздо чаще, чем tip, и это предположение не затрагивает сути проблемы. ) В это время, когда максимальная вероятность не может вынести решающего суждения, априорная вероятность может вмешаться и дать инструкции: «Поскольку вы не можете решить, то я говорю вам, что в общем случае верх проявляется в гораздо большей степени, поэтому больше скорее всего, он хочет играть наверху»).
Вышеизложенное является лишь задачей максимального правдоподобия, то есть не дает всей информации для принятия решения.
С максимальным правдоподобием связана еще одна проблема: даже если предположение очень хорошо соответствует данным, это не означает, что предположение является лучшим предположением, потому что само предположение может быть очень маловероятным. Например, Маккей привел хороший пример в «Теории информации: алгоритмы вывода и обучения»: -1 3 7 11 Как вы думаете, арифметическая последовательность более вероятна? Или -X^3/11 + 9/11*X^2 + 23/11 Каждое слагаемое вычисляется путем подстановки предыдущего слагаемого как X? Кроме того, аппроксимация кривой также верна, N точек на плоскости всегда можно полностью аппроксимировать полиномом порядка N-1, когда Когда N точек приблизительно, но не точно, коллинеарны, аппроксимация полиномом порядка N-1 может точно пройти через каждую точку, но при использовании прямой линии для аппроксимации/линейной регрессии некоторые точки не могут быть расположены на прямой линии. Какой из них вы говорите лучше? Полиномиальный? Или прямой? Вообще говоря, полином низшего порядка должен быть более надежным (конечно, предполагается, что «вероятностью» P(D | h) нельзя пренебречь. Очевидно, что полиномиальное распределение ненадежно, даже если вы пытаетесь подогнать прямая линия, поэтому нужно умножать их оба.), одна из причин в том, что многочлены младших порядков встречаются чаще, а априорная вероятность ( P(h) ) больше (вторая причина скрыта в P(D |з) Внутри), Вот почему мы используеммодульдля интерполяции вместо того, чтобы напрямую делать многочлен степени N-1 для прохождения через любые N точек.
Философия, подразумеваемая вышеприведенным анализом, заключается в том, что в данных наблюдений всегда будут различные ошибки, такие как ошибки наблюдения (например, когда вы наблюдаете ММ, который случайно проходит мимо вас, и дрожание вашей руки является ошибкой), поэтому Если вы слишком усердно ищете модель, которая прекрасно объясняет наблюдаемые данные, вы попадете в так называемую «данную».переоснащениеВ ситуации, когда модель переобучения пытается объяснить даже ошибку (шум) (на самом деле шум не нуждается в объяснении), это явно перебор. Таким образом, P(D | h) большое не означает, что ваш h (догадка) лучше час Также посмотрите, как выглядит P(h). так называемыйБритва ОккамаСуть в том, что если две теории имеют схожую объяснительную силу, предпочтение отдается более простой (и часто более приземленной, менее сложной и более распространенной).
Другая причина совпадения состоит в том, что наблюдения кажутся «неточными» не из-за ошибок, а из-за того, что существует слишком много факторов реального мира, влияющих на результаты данных, и, в отличие от шума, эти отклонения являются чем-то другим. факторы не могут быть объяснены вашей моделью - шум не нужно объяснять - реалистичная модель часто выделяет только несколько факторов, которые сильно коррелируют с результатом и очень важны (причина). В этот момент наблюдаемые данные будут иметь тенденцию появляться вокруг предсказаний вашей конечной модели.нормальное распределение, поэтому результат, который вы на самом деле наблюдаете, - это нормальное распределениеслучайная выборка, эта выборка, вероятно, будет отклонена от центра предсказаний вашей модели из-за других факторов, и вы не можете жадно пытаться изменить модель, чтобы она «идеально» соответствовала данным, потому что факторы, которые искажают результаты, ваши прогнозы - это не вы Факторы, содержащиеся в этой ограниченной модели, могут быть обобщены, и попытка сделать опухшее лицо и толстое лицо может привести только к нереалистичной модели Возьмем пример из учебника: фактическая связь между ростом и весом аналогична полиномиальная зависимость второго порядка, но все я знаю, что не только рост влияет на вес.В физическом мире слишком много факторов, влияющих на вес.Некоторые люди высокие, но худые как солома, а некоторые люди не длинные. Но нельзя отрицать, что в целом, чем больше частных случаев, тем они реже, с нормальным распределением вокруг наиболее распространенного случая (умеренная полнота и худоба), что обеспечивает возможность использования нашей модели корреляции роста и веса в Make достоверные прогнозы в большинстве случаев. Однако, как я только что сказал, есть частные случаи.Даже если это не частный случай, люди бывают толстые и худые, а их плотность также велика и мала, поэтому нет человека, идеально подходящего под гипотетический полином второго порядка. соотношение между ростом и весом не является идеальным многогранником в евклидовом геометрическом мире, поэтому, когда мы случайным образом выбираем население Если N выборок (точек данных) пытаются подогнать полином к этим N точкам данных, обратите внимание, это должен быть полином второго порядка, все, что нам нужно сделать, это вычислить параметры членов полинома в соответствии с точками данных ( a Типичный метод — метод наименьших квадратов); это определенно не прямая линия (и мы не соломинка) и не полином третьего порядка, полином четвертого порядка. может округлить полином N-1 порядка - представьте, что связь между ростом и весом - это полином 5-го порядка, чтобы увидеть?
3.2 Сравнение моделей и байесовская бритва Оккама
По сути, сравнение моделей заключается в сравнении того, какая модель (предположение) с большей вероятностью будет скрыта за наблюдаемыми данными. Основная идея уже была проиллюстрирована на примере исправления орфографии. Наше предположение о словах, которые пользователь на самом деле хотел ввести, является моделью, а слова, которые пользователь неправильно набрал, являются наблюдениями. Мы проходим:
P(h | D) ∝ P(h) * P(D | h)
Давайте сравним, какая модель самая надежная. Как упоминалось ранее, недостаточно полагаться на P(D | h) (то есть на «вероятность»), и иногда необходимо ввести априорную вероятность P(h). Бритва Оккама говорит, что модель с большим P(h) имеет большее преимущество, а максимальная вероятность говорит, что модель, которая лучше всего соответствует наблюдаемым данным (т. е. модель с наибольшим P(D | h)) имеет наибольшее преимущество. . Все сравнение моделей представляет собой перетягивание каната между этими двумя силами. Давайте возьмем еще один простой пример, иллюстрирующий этот дух: вы находите монету, подбрасываете ее и наблюдаете за результатом. Что ж, то, что вы наблюдаете, является либо «положительным», либо «отрицательным» (нет, не шаолиньской футбольной монетой: P), давайте предположим, что вы наблюдаете «положительное». Теперь из этого наблюдения вы должны сделать вывод, какова вероятность того, что монета выпала «орлом». В духе оценки максимального правдоподобия мы должны предположить, что вероятность того, что эта монета подбросит «положительно», равна 1 , потому что это предположение максимизирует P(D | h). Однако все покачают головой - очевидно, что вероятность того, что вы случайно вытащите монету без решки, "не существует", мы предвзято относимся к тому, является ли случайная монета необъективной монетой, насколько предвзятой, есть априорное понимание , это понимание состоит в том, что большинство монет в основном честные, чем более предвзятые монеты, тем реже (вы можете использоватьбета-распределениедля выражения этой априорной вероятности). Поместите это предварительное нормальное распределение p (θ) (где θ — это процент выпадения орла, который выпадает при падении монеты, а строчная буква p означает, что этоФункция плотности вероятностиВ сочетании с нашей задачей мы собираемся максимизировать не P (D | H), а максимизировать P (D | θ) * p (θ), очевидно, θ = 1 не является прямой, потому что p (θ) = 1) равен 0, что приводит к 0 во всем продукте. На самом деле, пока вы задаете производную от этой формы, вы можете получить наибольшее количество баллов.
Вышеизложенное состоит в том, что, когда мы знаем априорную вероятность P(h), использовать максимальную вероятность ненадежно, потому что предположение о максимальном правдоподобии может иметь очень маленькую априорную вероятность. Однако бывают случаи, когда мы ничего не знаем об априорной вероятности и можем только предположить, что априорная вероятность каждого предположения равна, в этом случае используется только максимальная вероятность. На самом деле, у статистиков и байесовцев есть интересный аргумент, говорят статистики: мы позволяем данным говорить самим за себя. Смысл в том, чтобы отказаться от априорной вероятности. А сторонники байесовского подхода говорят, что данные будут иметь всевозможные смещения, и надежная априорная вероятность может быть устойчива к этому случайному шуму. Факты доказывают, что байесовцы победили. Ключ к победе в том, что так называемая априорная вероятность на самом деле является результатом эмпирической статистики. Например, почему мы считаем, что большинство монет в основном честны? Почему мы думаем, что большинство людей страдают умеренным ожирением? Почему мы думаем, что цвет кожи связан с расой, а вес — нет? "Предыдущее" в априорной вероятности не означает до всего опыта, а только относится к данным наблюдения, данным перед нами "в настоящее время". Опыт, а не "врожденный".
Однако, сказав это, иногда мы должны признать, что даже на основе прошлого опыта имеющиеся «априорные» вероятности все еще равномерно распределены. В настоящее время мы должны полагаться на максимальное правдоподобие. Мы используем естественный язык, оставленный позади. Проблема двусмысленности иллюстрирует это:
The girl saw the boy with a telescope.
Была ли это грамматическая конструкция «Девочка увидела-с-подзорной трубой мальчика» или это была «Девочка увидела-мальчика-с-подзорной трубой»? Обе грамматические конструкции примерно одинаково распространены (вы можете подумать, что последняя грамматическая структура менее распространена, что является задним числом, вам просто нужно подумать о «Девочка видела мальчика с книгой». Конечно, фактическая Последняя грамматическая структура действительно немного менее распространены из приведенной выше крупномасштабной корпусной статистики, но этого явно недостаточно, чтобы объяснить наше сильное предпочтение первой структуры). Так почему именно?
Давайте сначала посмотрим на прекрасный пример Mackay в книге:
Сколько ящиков на картинке? В частности, за этой книгой стоит коробка? Или две коробки? Или три коробки? Тем не менее... вы можете подумать, что за деревом должен быть ящик, но почему не два? Как показано ниже:
Очень просто, скажете вы: было бы странно, если бы на самом деле было две коробки, как получилось, что две коробки были одного цвета и одинаковой высоты?
На языке теории вероятностей то, что вы только что сказали, переводится как: угадывание h не выполняется, потому что P(D | h) слишком мало (слишком случайно). Наша интуиция подсказывает, что случайных (с малой вероятностью) событий не бывает. Поэтому, когда догадка (гипотеза) делает наше наблюдение маловероятным событием, мы говорим: «Какой сюрприз, как это может быть так умно?!»
Теперь мы можем вернуться к примеру с двусмысленностью естественного языка и дать идеальное объяснение: если грамматическая структура выглядит так: «Девочка увидела мальчика-с-телекопом», почему у мальчика был Телескоп — щепотка, которую можно использовать, чтобы видеть-с? Это слишком маловероятно. Почему он не может взять книгу? Возьмите что-нибудь. Почему ты просто взял телескоп? Таким образом, единственное объяснение заключается в том, что за этим «совпадением» должна стоять неизбежность, и эта неизбежность заключается в том, что если мы интерпретируем грамматическую структуру как «Девочка увидела-в-телескоп-мальчика», она полностью соответствует данным, поскольку смотрели на мальчика чем-то, то вполне объяснимо, что это телескоп (уже не маловероятное событие).
Неоднозначность естественного языка является обычным явлением, например, в приведенном выше предложении:
См. Решение и суждение иRationality for MortalsГлава 12. Дети могут решать байесовские задачи
Возникает двусмысленность: следует ли нам ссылаться на 12-ю главу двух книг или только на 12-ю главу второй книги? Если бы это была 12-я глава этих двух книг, это было бы странно. Как могло случиться, что в обеих книгах есть глава 12, и обе они говорят об одной и той же проблеме. Что еще более странно, так это то, что название остается тем же?
Обратите внимание, что приведенное выше является оценкой правдоподобия (то есть только с учетом размера P (D | h)), без априорной вероятности. Из этих двух примеров, особенно из примера ящика за деревом, мы видим, что оценка правдоподобия также содержит бритву Оккама: чем больше ящиков за деревом, тем сложнее модель. Однокамерная модель является самой простой. Оценка правдоподобия выбирает более простую модель.
это называетсяБайесовская бритва Оккама, потому что эта бритва работает с вероятностью формулы Байеса (P(D | h)), а не с априорной вероятностью самой модели (P(h)), которая является традиционной бритвой Оккама. Что касается байесовской бритвы Оккама, давайте посмотрим на другой пример подгонки кривой, упомянутый ранее: если на плоскости есть N точек, они примерно образуют прямую линию, но они ни в коем случае не лежат точно на прямой. В это время мы можем подогнать либо прямую линию (модель 1), либо полином второго порядка (модель 2), либо полином третьего порядка (модель 3), .. , в частности, использовать Многочлен порядка N-1 гарантированно проходит через N точек данных. Итак, какая из этих возможных моделей самая надежная? Как упоминалось ранее, одна мера основана на бритве Оккама: чем выше полином, тем сложнее и необычнее. Однако на самом деле нам не нужно полагаться на это априорное определение бритвы Оккама, поскольку кто-то может возразить: как можно говорить, что полиномы более высокого порядка менее распространены? Я предпочитаю думать, что все полиномы порядка равновероятны. Ну, в таком случае мы могли бы также отбросить член P(h) и посмотреть, что P(D | h) может нам сказать. Мы заметили, что чем полином высшего порядка, тем больше степень кривизны его траектории.Когда он достигает восьмого или девятого порядка, он идет прямо вверх и вниз, поэтому мы не только должны задать: например, пучок восьмых полиномы -порядка, случайно сгенерированные на плоскости Какова вероятность того, что N точек точно аппроксимируют прямую линию (т. е. P(D | h) )? Слишком маленький слишком маленький. И наоборот, если модель позади представляет собой прямую линию, вероятность создания группы точек, которые аппроксимируют прямую линию, намного выше на основе модели. Это байесовская бритва Оккама.
Это просто для обеспечения популярной науки о бритве Байеса Аккама, подчеркивая интуитивное объяснение. Для более теоретических формул, пожалуйста, обратитесь к главе 28 книги Mackay «Теоризация информации: вывод и алгоритмы обучения».
3.3 Принцип минимальной длины описания
Байесовская теория сравнения моделей имеет интересную связь с теорией информации:
P(h | D) ∝ P(h) * P(D | h)
Логарифмируем обе части и превращаем произведение правой части в сложение:
ln P(h | D) ∝ ln P(h) + ln P(D | h)
Очевидно, что максимизация P(h | D) также максимизирует ln P(h | D). А ln P(h) + ln P(D | h) можно интерпретировать как длину кодирования модели (или «гипотезы», «догадки») h плюс длину кодирования данных D в соответствии с моделью. Модель, которая минимизирует эту сумму, является лучшей моделью.
Однако проблема заключается в том, как определить длину кодирования модели и длину кодирования данных в модели. См. раздел 6.6 машинного обучения Митчелла или раздел 28.3 Маккея).
3.4 Оптимальный байесовский вывод
Так называемое рассуждение делится на два процесса.Первый шаг — построить модель для наблюдаемых данных. Второй шаг заключается в использовании модели для вывода о вероятности возникновения неизвестных явлений. Мы говорили о модели, дающей наиболее достоверные данные наблюдений. Однако во многих случаях, хотя какая-то модель является самой надежной из всех моделей, другие модели не лишены возможностей. Например, вероятность первой модели по наблюдаемым данным равна 0,5. Вторая модель — 0,4, а третья — 0,1. Если мы просто хотим узнать, какая модель наиболее вероятна для наблюдаемых данных, то просто берем первую, и на этом история заканчивается. Однако много раз мы строим модели, чтобы размышлять о вероятности возникновения неизвестных событий. В настоящее время три модели будут иметь свои собственные прогнозы вероятности возникновения неизвестных событий. Просто потому, что определенная модель имеет немного более высокую вероятность, мы только послушайте его, это слишком недемократично. Так называемый оптимальный байесовский вывод — это средневзвешенное значение прогнозных выводов трех моделей для неизвестных данных (вес — это соответствующая вероятность модели). Очевидно, что это рассуждение представляет собой господствующую высоту теории и не может быть лучше, потому что оно уже учло все возможности.
Но на самом деле мы принципиально не используем этот каркас, потому что расчет модели может быть очень трудоемким, а во-вторых, модельное пространство может быть непрерывным, то есть моделей бесконечно много (распределение вероятностей модели нужно быть рассчитаны в это время). Результат все еще требует очень много времени. Так что это рассматривается как теоретический ориентир.
4. Байесовский везде
Ниже мы приведем несколько практических примеров, чтобы проиллюстрировать универсальность байесовского метода, здесь мы в основном сосредоточимся на машинном обучении, потому что я не экономист, а то могу найти кучу примеров из экономики.
4.1 Сегментация китайских слов
Байесовский — один из основных методов машинного обучения. Например, в области сегментации китайских слов используется байесовский подход. У исследователя Google Ву Цзюня есть статья из серии «Красота математики», в которой рассказывается о сегментации китайских слов. Здесь представлены только основные идеи, не вдаваясь в подробности. Подробности см. в статье Ву Цзюня (здесь).
Описание проблемы сегментации слов: задано предложение (строка), например:
Нанкинский мост через реку Янцзы
Как сегментировать это предложение (строку слов) является наиболее надежным. Например:
1. Город Нанкин/мост через реку Янцзы
2. Нанкин/мэр/мост через реку
Какое из этих двух причастий надежнее?
Мы формально описываем эту проблему, используя байесовскую формулу, пусть X — строка слов (предложений), а Y — строка слов (определенное гипотетическое причастие). Нам просто нужно найти значение Y, максимизирующее P(Y|X), которое можно получить с помощью байесовского метода:
P(Y|X) ∝ P(Y)*P(X|Y)
В естественном языке это вероятность этого причастия (словосочетания), умноженная на вероятность того, что эта последовательность слов сгенерирует наше предложение. Далее мы легко видим, что P(X|Y) можно приблизительно рассматривать как константу, равную 1, потому что любой гипотетический способ причастия для порождения нашего предложения всегда точно порожден (просто возьмите причастие. Вы можете отбросить разделитель между ними). Итак, мы стали максимизировать P(Y), то есть найти причастие, максимизирующее вероятность данного словосочетания (предложения). И как вычислить строку слова:
W1, W2, W3, W4 ..
возможность? Мы знаем, что согласносовместная вероятностьРасширение формулы для : P(W1, W2, W3, W4 ..) = P(W1) * P(W2|W1) * P(W3|W2, W1) * P(W4|W1,W2,W3) * ... Итак, мы можем найти всю совместную вероятность, перемножив ряд условных вероятностей (справа). Однако, к сожалению, по мере увеличения количества условий (существует n-1 условий для P(Wn|Wn-1,Wn-2,..,W1)),проблема разреженности данныхБудет становиться все серьезнее, даже если корпус большой, достоверным считать нельзя Приходит P(Wn|Wn-1,Wn-2,..,W1). Чтобы смягчить эту проблему, компьютерщики, как всегда, используют «наивные» предположения: мы предполагаем, что вероятность появления слова в предложении зависит только от конечного числа предшествующих ему k слов (k обычно не более 3, если это зависит только от предыдущего слова А, это 2 юаняязыковая модель(2-грамм), аналогично есть 3-грамм, 4-грамм и т. д.), это так называемая гипотеза «ограниченного горизонта». Хотя это предположение глупо и наивно, оказывается, что его результаты часто бывают очень хорошими и мощными. Упоминаемое ниже предположение, используемое наивным байесовским методом, полностью согласуется с этим духом. Мы объясним, почему такое наивное предположение может привести к мощным Результаты. А пока нам просто нужно знать, что при таком предположении произведение можно переписать как: P(W1) * P(W2|W1) * P(W3|W2) * P(W4|W3) .. (при условии, что каждое слово зависит только от одного предшествующего ему слова). Статистический P(W2|W1) больше не страдает от проблемы разреженности данных. Для примера, который мы упоминали выше, «Мост через реку Янцзы в Нанкине», если слова сегментированы в соответствии с жадным методом слева направо, результатом будет «Мэр Нанкина / Мост через реку». Но согласно байесовской сегментации слов (при условии, что 3 грамма), поскольку частота появления слов «мэр Нанкина» и «Цзян Дацяо» вместе в корпусе равна 0, вероятность всего этого предложения будет оцениваться как 0. Таким образом, побеждает метод причастия «Город Нанкин / мост через реку Янцзы».
небольшое примечание: Можно задаться вопросом, а не рассуждаем ли мы, люди, на основе этих наивных предположений? нет. На самом деле, статистика статистических методов машинного обучения часто находится на довольно поверхностном уровне. На этом уровне машинное обучение может видеть только некоторые очень поверхностные явления. Любой, кто хоть немного имеет представление о научных исследованиях, знает, что: чем больше вы идете к Идущему на поверхность мир становится более сложным и изменчивым. С точки зрения машинного обучения, чем больше функций, тем больше возможных сотен или тысяч измерений. Еще одна особенность, нуПроклятие высокого измеренияПосле создания данные ужасно скудны и недостаточны. И наш уровень человеческого наблюдения, очевидно, глубже, чем уровень наблюдения машинного обучения.Чтобы избежать дефицита данных, мы продолжаем изобретать различные устройства (наиболее типичным из них является микроскоп), которые помогут нам перейти непосредственно к более глубокому уровню наблюдения за вещами. больше Вместо того, чтобы делать статистические обобщения поверхностных явлений на поверхностном уровне. Приведу простой пример, машинное обучение может через статистику большого корпуса найти такое правило: все "он" не в состоянии носить бюстгальтер, и все "она" его носят. Однако, как мужчина, нет абсолютно никакой необходимости делать какие-либо статистические исследования, потому что глубокие правила определяют, что мы вообще не будем носить бюстгальтеры. Что касается того, может ли машинное обучение завершить последнее (подобно человеческому) рассуждению, это классическая проблема в области искусственного интеллекта. По крайней мере до тех пор,Утверждает, что методы статистического обучения могут положить конец научным исследованиям.(оригинальный) утверждениеЭто чисто слова обывателя.
4.2 статистический машинный перевод
Статистический машинный перевод быстро стал стандартом де-факто для машинного перевода из-за его простоты и автоматизации (нет необходимости вручную добавлять правила). Базовый алгоритм статистического машинного перевода также использует байесовский метод.
Какой вопрос? Проблема статистического машинного перевода может быть описана так: для данного предложения e, какой из его возможных иностранных переводов f является наиболее надежным. То есть нам нужно вычислить: P(f|e). Как только условная вероятность Байеса всегда выходит вперед:
P(f|e) ∝ P(f) * P(e|f)
Правая часть этого выражения легко интерпретируется: те иностранные предложения f, которые имеют более высокую априорную вероятность и с большей вероятностью порождают предложение e, выиграют. Нам нужна только простая статистика (в сочетании с упомянутой выше языковой моделью N-Gram), чтобы подсчитать вероятность появления любого предложения на иностранном языке f. Однако найти P(e|f) не так-то просто.Какова вероятность того, что при наличии кандидата в бюро иностранных языков sub f оно сгенерирует (или будет соответствовать) предложению e? Нам нужно определить то, что называется «соответствием». Здесь нам нужно использовать параллельный корпус с выравниванием сегментации слов. Если вам интересно, вы можете обратиться к главе «Основы статистической обработки естественного языка». Глава 13, вот отрывок из примера: Предположим, что e равно: Джон любит Мэри. Первое f, на которое нам нужно обратить внимание, это: Jean aime Marie (французский). Нам нужно выяснить, насколько велико P(e|f), для этого мы рассмотрим, сколько возможных возможностей выравнивания есть у e и f, например:
John (Jean) loves (aime) Marie (Mary)
является одним из (наиболее надежных) выравниваний. Причина выравнивания в том, что после выравнивания вы можете легко рассчитать, насколько велико P (e | f) при этом выравнивании, просто рассчитайте:
P(John|Jean) * P(loves|aime) * P(Marie|Mary)
Вот и все.
Затем мы перебираем все выравнивания и суммируем вероятности перевода ∑ по каждому выравниванию. Затем вы можете узнать, насколько велико все P(e|f).
небольшое примечание: Или вопрос: действительно ли мы, люди, переводим таким образом? очень вряд ли. Мы не будем настолько глупы, чтобы использовать такую вычислительно сложную штуку, которая не может справиться даже с трехзначным умножением. Согласно когнитивной нейробиологии, вполне вероятно, что сначала мы переходим от предложений к семантике (восходящий абстрактный процесс складывания), а затем расширяемся от семантики к другому языку в соответствии с грамматикой другого языка (материализованный процесс развертывания сверху вниз). ). Как реализовать этот процесс вычислимо, остается трудной проблемой. (Мы видим, что во многих местах "Снизу-вверх/сверху-вниз" - это такой симметричный процесс. На самом деле, некоторые люди предполагают, что биологические нейронные сети работают в принципе именно так. Особенно это доказывают исследования зрительной нервной системы. Хокинс предложил в "Об интеллекте". изHTMЭтот принцип используется в модели (иерархической временной памяти). )
4.3 Байесовское распознавание изображений, анализ путем синтеза
Байесовские методы представляют собой очень общую основу вывода. Его основная концепция может быть описана как: анализ путем синтеза. Существует документ о новом прогрессе когнитивной науки в 2006 году, в котором говорится об использовании байесовских рассуждений для объяснения визуального распознавания. Изображение стоит тысячи слов. Следующее изображение взято из этой статьи:
Сначала система машинного зрения извлекает угловые особенности графика, затем использует эти функции для активации абстрактных понятий высокого уровня (таких как E или F или знак равенства) снизу вверх, а затем использует проверку сверху вниз, чтобы сравнить, какие Концепция наиболее наблюдаемых изображений хорошо объясняется.
4.4 ЭМАлгоритмы и кластеризация на основе моделей
кластеризацияэтоНеконтролируемое машинное обучениеПроблема, описание проблемы: Дайте вам кучу точек данных и позвольте вам сгруппировать их в стопки и стопки наиболее надежным способом. Существует множество алгоритмов кластеризации, и разные алгоритмы подходят для разных задач. Здесь представлена только одна кластеризация на основе модели. Предположение об этом алгоритме кластеризации для точек данных состоит в том, что эти точки данных представляют собой K нормальных распределений вокруг K ядер. Источник генерируется случайным образом с использованием Рисунок из «Data Ming: Concepts and Techniques» Хана ЦзяВея:
На графике есть два нормально распределенных ядра, которые генерируют примерно два стека точек. Наш алгоритм кластеризации должен рассчитать, где ядро двух нормальных распределений основано на заданных точках и каковы параметры распределения. Очевидно, это снова байесовская проблема, но на этот раз разница в том, что ответ непрерывен и имеет бесконечные возможности, и что еще хуже, только тогда, когда мы знаем, какие точки принадлежат одной и той же нормальной окружности. Только тогда мы можем делать надежные прогнозы для параметров Теперь, когда две стопки точек смешаны вместе, мы не знаем, какие точки принадлежат первому нормальному распределению, а какие — второму. И наоборот, только когда мы делаем надежные прогнозы о параметрах распределения, мы можем знать, какие точки принадлежат первому распределению, а какие — второму распределению. Это становится вопросом о курице и яйце. Чтобы решить эту круговую зависимость, всегда есть одна сторона, которая должна сначала выйти из тупика, сказав, что несмотря ни на что, я сначала придумаю случайное значение, чтобы увидеть, как вы меняетесь, а затем я буду корректировать свои изменения в соответствии с к вашим изменениям, а затем перебирать друг друга, производные, и в конечном итоге сходится к решению. Это алгоритм ЭМ.
EM означает «ожидание-максимизация».В этой задаче кластеризации мы сначала случайным образом угадываем параметры этих двух нормальных распределений: например, где находится ядро и какова дисперсия. Затем вычислите, относится ли каждая точка данных к первому или второму кругу нормального распределения, который относится к шагу ожидания. С атрибуцией каждой точки данных мы можем переоценить параметры первого распределения (от яйца до курицы) на основе точек данных, принадлежащих первому распределению, то есть максимизации. Это повторяется до тех пор, пока параметры в основном не перестанут меняться. Байесовский метод в этом итеративном процессе сходимости находится на втором этапе, чтобы найти параметры распределения на основе точек данных.
4.5 Максимальное правдоподобие и метод наименьших квадратов
Те, кто изучал линейную алгебру, вероятно, знакомы с классическим методом наименьших квадратов для линейной регрессии. Описание проблемы: даны N точек на плоскости (здесь можно предположить, что мы хотим совместить эти точки с прямой линией -возвращениеможно рассматривать каксоответствоватьчастный случай , т. е. соответствие с допустимой ошибкой), найти линию, которая лучше всего описывает точки.
Возникает вопрос: как определить оптимальность? Мы устанавливаем координаты каждой точки как (Xi, Yi) . Если линия y = f(x) . Тогда (Xi, Yi) и «предсказание» линии для этой точки: (Xi, f(Xi)) есть разность ΔYi = |Yi – f(Xi)|. Метод наименьших квадратов означает нахождение такой прямой линии, что (ΔY1)^2 + (ΔY2)^2 + .. (т.е. сумма квадратов ошибок) является наименьшей.Что касается того, почему это сумма квадратов ошибок, а не сумма абсолютных значений ошибок, статистика также Нет хорошего объяснения. Однако байесовские методы дают прекрасное объяснение этому.
Мы предполагаем, что прямая линия является наиболее надежным предсказанием для предсказания f (Xi), заданного координатой Xi. Все те точки данных, ординаты которых отклоняются от f (Xi), содержат шум. Именно шум заставляет их отклоняться от идеального Разумное предположение состоит в том, что вероятность отклонения от маршрута меньше и насколько меньше, что можно смоделировать кривой нормального распределения. прямая линия для Xi, а фактическая ордината - Yi. Вероятность появления точки (Xi, Yi) пропорциональна EXP[-(ΔYi)^2]. (EXP(..) представляет число, возведенное в основание константы e).
Теперь вернемся к байесовской стороне проблемы. Апостериор, который мы хотим максимизировать, таков:
P(h|D) ∝ P(h) * P(D|h)
До новых встреч, байесовцы! Здесь h относится к конкретной строке, а D относится к N точкам данных. Нам нужно найти линию h, которая максимизирует P(h) * P(D|h). Очевидно, что априорная вероятность P(h) одинакова, потому что ни одна линия не превосходит другую. Таким образом, нам нужно только посмотреть на элемент P (D | h), который относится к вероятности того, что эта линия генерирует эти точки данных.Как я уже говорил ранее, вероятность создания точек данных (Xi, Yi) равна EXP[-( ΔYi)^2] раз на константу. И P(D|h) = P(d1|h) * P(d2|h) * .. То есть предполагается, что каждая точка данных генерируется независимо, поэтому каждую вероятность можно умножить. Так сгенерируйте Вероятность N точек данных равна EXP[-(ΔY1)^2] * EXP[-(ΔY2)^2] * EXP[-(ΔY3)^2] * .. = EXP{-[(ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + ..]} Чтобы максимизировать эту вероятность, нужно минимизировать (ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + .. . Вы знакомы с этой формулой?
5. Наивный байесовский метод
Наивный байесовский метод — это особенный метод, поэтому его стоит представить. Мы проиллюстрируем это применением Наивного Байеса в фильтрации спама.
5.1 Байесовский спам-фильтр
Какой вопрос? Проблема в том, что по электронному письму определить, является ли оно спамом или нет. Следуя прецеденту, мы по-прежнему используем D для представления этого письма, отметив, что D состоит из N слов. Мы используем h+ для спама и h- для обычной почты. Формально проблему можно описать как нахождение:
P(h+|D) = P(h+) * P(D|h+) / P(D)
P(h-|D) = P(h-) * P(D|h-) / P(D)
Среди них легко найти две априорные вероятности, P(h+) и P(h-), нужно только рассчитать соотношение спама и обычной почты в почтовой базе. Однако найти P(D|h+) непросто, так как D содержит N слов d1, d2, d3, .. , поэтому P(D|h+) = P(d1,d2,..,dn|h+) . У нас снова разреженность данных, почему мы так говорим? P(d1,d2,..,dn|h+) означает, какова вероятность того, что электронное письмо точно совпадает с нашим текущим письмом в спаме! Шучу, все электронные письма разные, в мире бесконечно много электронных писем. Видите ли, это разреженность данных, потому что можно с уверенностью сказать, что независимо от того, сколько электронных писем вы соберете в своей обучающей базе данных, невозможно найти то, что выглядит точно так же, как текущее. Результаты этого? Как мы рассчитываем А как насчет P(d1,d2,..,dn|h+)?
Мы расширяем P(d1,d2,..,dn|h+) до: P(d1|h+) * P(d2|d1, h+) * P(d3|d2,d1, h+) * .. . Вы знакомы с этой формулой? Здесь мы будем использовать более радикальное предположение: мы предполагаем, что di и di-1 полностью условно независимы, поэтому формула упрощается до P(d1|h+) * P(d2|h+) * P(d3|h+) * .. . это называетсягипотеза условной независимости, что является простотой метода наивного Байеса. при расчете P(d1|h+) * P(d2|h+) * P(d3|h+) * .. это слишком просто, просто подсчитайте частоту слова di в спаме. Дополнительные сведения о байесовской фильтрации спама см.эта запись, обратите внимание на другие источники, упомянутые в нем.
небольшое примечание: Вот почему такая проблема разреженности данных, или потому что метод статистического обучения работает на поверхностном уровне, даже если в мире больше нет слов, в мире все еще много слов, а предложения, составленные из меняются и слова, не говоря уже о предложении. Статьи есть, а статей бесконечное количество, поэтому статистика на этом уровне должна быть смущена разреженностью данных. Мы должны отметить, что хотя количество предложений и статей бесконечно, в случае электронных писем, если нас интересует только семантика предложений в электронном письме (и, следовательно, «намерение» на более высоком уровне абстракции (семантика, как может намерение быть вычислимым образом определено) является проблемой искусственного интеллекта), возможность значительно снижается на этом уровне. Чем выше уровень абстракции, который нас интересует, тем меньше вероятность, что это соответствует. Соответствие между наборами слов и предложениями является много-однозначным , а соответствие между предложениями и семантикой является «многие к одному», соответствие между семантикой и намерением по-прежнему является «многие к одному», что представляет собой иерархическую систему Нейробиологические данные также показывают, что кора головного мозга имеет примерно иерархическую структуру. ,соответствуя все более и более абстрактным уровням.Что касается того,как это реализовать конкретно Кора головного мозга,которую можно поместить в ЭВМ-до сих пор нерешенная проблема.Вышеизложенное является лишь принципом(принципом)понимания,только когда Вычислительная модель коры головного мозга была построена до того, как ее можно было поместить в компьютер.
5.2 Почему наивные байесовские методы удивительно хороши — теоретическое объяснение
Предположение об условной независимости наивных байесовских методов кажется глупым и наивным, так почему же результат такой хороший и мощный? Возьмем предложение, как мы можем опрометчиво утверждать, что вероятность любого слова в нем зависит только от 3 или 4 слов, которые ему предшествуют? Не говорите 3, иногда вполне возможно, что на вероятность слова влияет предыдущее предложение. Так почему же на практике эта гипотеза работает не хуже, чем деревья решений? Кто-то предложил теоретическое объяснение этого и установил необходимые и достаточные условия, когда эффект наивного Байеса может быть эквивалентен ненаивному Байесу. Суть этого объяснения заключается в следующем: распределение некоторых независимых предположений среди различных категорий однородно и следовательно, не влияют на относительную величину правдоподобия; даже если это не так, существует высокая вероятность того, что отрицательные или положительные эффекты независимых гипотез компенсируют друг друга, что мало повлияет на результаты. Пожалуйста, обратитесь к конкретной математической формулеЭта бумага.
6. Иерархическая байесовская модель
Иерархическая байесовская модельЭто один из ориентиров современных байесовских методов. Упомянутая выше байесовская модель полностью посвящена статистическим рассуждениям между различными факторами на одном и том же уровне вещей.Однако иерархическая байесовская модель делает шаг вперед в философии, и факторы, стоящие за этими факторами (причины причин, причина и т. д. ) включены. Пример из учебника: если у вас есть N монет на руках, они были отчеканены на одной и той же фабрике, вы подбрасываете каждую монету по одному результату и на основе N результатов делаете θ (доля появляющихся голов) для вывода. Если в соответствии с максимальной вероятностью θ каждой монеты равно 1 или 0 (об этом упоминалось ранее), тем не менее мы знаем, что p(θ) каждой монеты имеет априорную вероятность, возможно, бета-распределение. То есть фактический подбрасывание каждой монеты, Xi, следует нормальному распределению с центром в θ, которое, в свою очередь, следует другому бета-распределению с центром в Ψ. Проявляются слои причинности. В свою очередь, Ψ также может зависеть от факторов, стоящих выше в причинно-следственной цепи, и так далее.
6.1 Скрытая марковская модель (HMM)
Представлено У Цзюнем в сериале «Красота математики».Скрытая марковская модель(HMM) представляет собой простую иерархическую байесовскую модель:
Итак, как сделать вывод о том, что говорящий хочет выразить на основе полученной информации? Мы можем решить эти проблемы, используя так называемую скрытую марковскую модель. Взяв в качестве примера распознавание речи, когда мы наблюдаем речевые сигналы o1, o2, o3, нам нужно сделать вывод об отправленных предложениях s1, s2, s3 на основе этого набора сигналов. Очевидно, среди всех возможных предложений следует найти наиболее вероятное. На математическом языке нужно найти предложение s1, при котором условная вероятность P (s1,s2,s3,…|o1,o2,o3….) достигает максимального значения, когда известны o1,o2,o3,… , с2, с3,…
В статье Ву Цзюня здесь опущено то, что вероятность генерации s1, s2, s3, .. этого предложения также зависит от набора параметров, который определяет априор s1, s2, s3, .. этой цепи Маркова. вероятности. Если мы обозначим этот набор параметров как λ , то на самом деле мы просим: P(S|O, λ) (где O означает o1,o2,o3,.. и S означает s1,s2,s3,..)
Конечно, указанную выше вероятность нелегко найти напрямую, поэтому мы можем вычислить ее косвенно. Используя формулу Байеса и опуская постоянный член, приведенная выше формула может быть эквивалентно преобразована в
P(o1,o2,o3,…|s1,s2,s3….) * P(s1,s2,s3,…)
в
P(o1,o2,o3,…|s1,s2,s3….) представляет возможность того, что предложение s1,s2,s3… читается как o1,o2,o3,…, и P(s1,s2,s3, …) представляет собой возможность того, что строка s1, s2, s3,… сама по себе может стать разумным предложением, поэтому смысл этой формулы состоит в том, чтобы умножить вероятность последовательности сигналов как s1, s2, s3… на s1, s2, s3.. сама по себе может быть возможностью предложения, приводящего к вероятности.
Здесь возможность того, что s1, s2, s3... само по себе может быть предложением, на самом деле зависит от параметра λ, который является языковой моделью. Короче говоря, отправленный речевой сигнал зависит от фактического предложения, стоящего за ним, а независимая априорная вероятность того, что предложение действительно предназначено для отправки, зависит от языковой модели.
7. Байесовская сеть
Ву Цзюнь сделал научно-популярную статью о байесовской сети, пожалуйста, сразу переходите к ней.здесь. Более подробные теоретические ссылки доступны во всех книгах по машинному обучению.
использованная литература
Некоторые ссылки на книгиРуководство по машинному обучению и искусственному интеллекту.