Переводчик | Лю Чанг
Компиляция | Шаньшань
Производство | База технологий искусственного интеллекта
[Введение] Чтобы каждый мог лучше понять байесовский алгоритм, AI Toutiao составил статью оБайесовский алгоритмстатья. Сегодня я представлю практический случай использования байесовской статистики. Благодаря проектной практике для достижения цели применения того, что вы узнали, я считаю, что понимание и владение байесовской статистикой каждым может быть глубже, и можно извлечь более точный контент.
▌предисловие
Я из Вьетнама, учился в средней школе в Сингапуре и в настоящее время учусь в колледже в США. Я часто слышу, как люди вокруг меня смеются над тем, как я выгляжу «маленькой» и как мне следует заниматься спортом, ходить в спортзал и набирать вес, чтобы иметь «лучшее телосложение»… однако я скептически отношусь к этим комментариям. почти идеальный ИМТ (20,3) для человека ростом 1,69 м (5 футов 6 дюймов) и весом 58 кг (127 фунтов).
Тогда я понял, что они говорили не об ИМТ, они подчеркивали размер тела.
Если подумать, их отправная точка хороша: данные показывают, что средний рост и вес вьетнамского мужчины составляют 1,62 метра и 58 кг, а поскольку я выше среднего, но такой же вес, как у среднего вьетнамского мужчины. , Я могу "Выглядит" немного тоньше. «Внешность» обведена, чтобы выделить. Если вес тот же, а рост выше, то выглядит стройнее и стройнее, что является простой логикой. И я думаю, что это научный вопрос, который заслуживает дальнейшего изучения.
Так вот вопрос, насколько я худой и маленький среди вьетнамских мужчин ростом 1,69 метра?
Нам нужен методологический подход к этой теме, и хороший способ — найти как можно больше данных о росте и весе вьетнамских мужчин и посмотреть, куда попадают мои данные.
▌Профиль населения Вьетнама
После поиска в Интернете я нашел данные демографического исследования более 10 000 вьетнамцев. Я сузил размер выборки до мужчин в возрастной группе 18-29 лет. Это оставляет мне выборку из 383 вьетнамских мужчин в возрасте от 18 до 29 лет, что более чем достаточно для следующего анализа.
Начните с построения гистограммы весов населения, чтобы увидеть, где я нахожусь среди вьетнамских мужчин.
В
Красная линия показывает медиану выборки, а оранжевая линия показывает среднее значение.
Этот график показывает, что я немного ниже среднего и медианного веса этих 383 вьетнамских юношей. Это хорошая новость? Однако вопрос не в том, насколько мой вес соотносится с образцом. Предполагая, что вьетнамское мужское население находится в добром здравии и что все вьетнамское население может быть представлено этими 383 людьми, но принимая во внимание фактор роста 1 м 68, мы можем сделать вывод, как мой вес соотносится со всем вьетнамским населением. Для этого нам нужно углубиться в регрессионный анализ.
Первый шаг — нарисовать двумерную диаграмму рассеяния роста и веса.
Ну, мои данные выглядят довольно средними. На самом деле, если мы посмотрим только на данные для тех, у кого рост 168 см (представьте себе вертикальную линию на уровне 168 см, проходящую через красную точку), то я немного легче этих людей.
Другое важное наблюдение заключалось в том, что степень дисперсии диаграммы рассеяния указывала на сильную линейную зависимость между ростом и весом у вьетнамских мужчин. Мы проведем количественный анализ, чтобы понять эту взаимосвязь.
Что нам нужно сделать, так это быстро добавить строку «стандартный метод наименьших квадратов». Подробнее об этой линии я расскажу позже, а пока покажу.
В
Наша линия наименьших квадратов равна y = -86,32 + 0,889x, что показывает, что вьетнамские мужчины моего возраста обычно прибавляют в весе 0,88 кг при росте на 1 см.
Однако это не отвечает на наш вопрос. В 1:68 58 кг считаются слишком тяжелыми, слишком легкими или просто средними? Чтобы объяснить это более количественно, если у нас есть распределение людей ростом 1 м 68, каковы шансы, что мой вес упадет до 25, 50 или 75 процентов? Для этого нам нужно копнуть глубже и понять теорию, лежащую в основе регрессии.
▌Теория линейной регрессии
В модели линейной регрессии ожидаемое значение переменной Y (в нашем случае веса человека) является линейной функцией X (роста). Мы называем это линейной зависимостью, где β0 и β1 — точка пересечения и наклон соответственно, то есть мы предполагаем, что E(Y|X=x) = β0 + β1*X. Но мы не знаем значения β0 и β1, поэтому это неизвестный параметр.
В большинстве стандартных моделей линейной регрессии мы также предполагаем, что условное распределение Y при X = x нормально распределено. Это означает простую модель линейной регрессии:
В
можно записать в следующем виде, учитывая, что во многих моделях можно заменить параметр дисперсии σ параметром точности τ, где τ = 1/σ.
Резюме: Зависимая переменная Y имеет нормальное распределение со средним значением µi и параметром точности τ. µi линейна с X, параметризованным β0 и β1
Наконец, мы также предполагаем, что неизвестная дисперсия не зависит от x, это предположение называется гомоскедастичностью.
Вышеупомянутое может быть слишком много, вы можете увидеть, что только что обсуждалось на картинке ниже.
В реальных задачах анализа данных мы даем только черные точки (данные). Наша цель — использовать эти данные, чтобы делать выводы о том, чего мы не знаем, включая β0, β1 (заштрихованная синяя пунктирная линия) и σ (ширина нормальной плотности, выделенная красным). Обратите внимание, что нормальное распределение вокруг каждой точки выглядит точно так же. Это свойство гомоскедастичности.
▌Оценка параметра
Теперь вы можете оценить β0 и β1 несколькими способами. Если вы используете метод наименьших квадратов для оценки такой модели, вам не нужно беспокоиться о формуле вероятности, потому что способ поиска оптимальных значений β0 и β1 заключается в минимизации квадрата ошибки подобранных и предсказанных значений. В качестве альтернативы, вы можете использовать оценку максимального правдоподобия для оценки такой модели, и вы можете найти оптимальные значения параметров, максимизируя функцию правдоподобия.
В
Примечание. Интересный результат (здесь нет математического доказательства) заключается в том, что оценка методом наименьших квадратов также является оценкой максимального правдоподобия, если мы дополнительно предположим, что ошибки также нормально распределены.
▌Линейная регрессия с использованием байесовской перспективы
Вместо того, чтобы максимизировать только функцию правдоподобия, байесовские методы предполагают предварительное распределение параметров и используют теорему Байеса:
Функция правдоподобия такая же, как и выше, но отличие состоит в том, что для оцениваемых параметров β0, β1, τ предполагаются некоторые априорные распределения, которые включаются в уравнение:
Быть
«Что такое априор и почему наше уравнение кажется в 10 раз сложнее?»
Поверьте мне, эта предварительная информация, хотя и может показаться странной, очень интуитивна. Правда в том, что существует очень серьезное философское обоснование того, почему мы можем использовать некоторое, казалось бы, произвольное распределение для определения неизвестного параметра (в нашем случае β0, β1, τ). Эти предварительные распределения предназначены для того, чтобы зафиксировать наше восприятие характеристик распределения данных до их просмотра. После наблюдения за некоторыми данными мы применяем правило Байеса, чтобы получить апостериорное распределение для этих неизвестных параметров, которое учитывает априорную информацию и данные. Из этого апостериорного распределения мы можем вычислить прогнозируемое распределение данных.
Эти априорные распределения должны выражать предположение о характеристиках распределения данных до того, как мы увидим данные.
Окончательная оценка будет зависеть от (1) ваших данных и (2) априорной информации, но чем больше информации у вас есть в ваших данных, тем менее полезен априор.
«Значит, я могу выбрать предварительное распределение?»
Это хороший вопрос, потому что есть бесконечные варианты. Существует только одна (теоретически) правильная априорная гипотеза, которая является вашей априорной гипотезой. Однако на практике выбор априорного распределения может быть весьма субъективным, а иногда даже произвольным. Мы можем выбрать нормальный априор с большим стандартным отклонением (маленькой точностью). Например, мы можем предположить, что β0 и β1 взяты из нормального распределения со средним значением 0 и стандартным отклонением 10 000. Это называется неинформативным априорным, потому что в основном это распределение будет довольно плоским (т. е. оно присваивает почти равную вероятность любому значению в определенном диапазоне).
Далее, если мы выбираем это априорное распределение, нам не нужно беспокоиться о том, какое распределение может быть лучше, поскольку его форма почти всегда плоская, а апостериорное распределение не заботится о характеристиках распределения априорного распределения.
Опять же, для точности τ мы знаем, что они должны быть неотрицательными, поэтому имеет смысл выбрать распределение, ограниченное неотрицательными значениями. Например, мы можем использовать гамма-распределение с низкими параметрами формы и масштаба.
Еще один полезный неинформативный выбор — равномерное распределение. Если вы выберете равномерное распределение σ или τ, вы можете получить то, что Джон К. Крушке называет моделью.
▌Моделирование с помощью R и JAGS
Пока теория очень хороша. Решение уравнений является математически сложной задачей. В подавляющем большинстве случаев апостериорное распределение не будет доступно напрямую (насколько сложными являются нормальное и гамма-распределения, вам придется перемножать ряд данных вместе).
Методы цепи Маркова Монте-Карло часто используются для оценки параметров модели. Инструментарий JAGS помогает нам в этом.
Инструмент JAGS представляет собой процесс моделирования на основе цепи Маркова Монте-Карло (MCMC), который дает множество итерационных результатов в пространстве параметров θ = (β0; β1; τ). Распределение выборки, сгенерированное для каждого параметра в этом пространстве параметров, будет аппроксимировать распределение генеральной совокупности для этого параметра.
Почему это происходит? Объяснение очень сложное. Простое объяснение: MCMC генерирует выборки в апостериорном распределении, строя цепь Маркова с целевым апостериорным распределением.
Честно говоря, это не весело. Вместо обычного способа разбора уравнения (2) мы можем сделать хитрую выборку и математически доказать, что распределение нашей выборки является фактическим распределением β0, β1, τ.
▌Как использовать этот инструмент JAGS
Мы запускаем JAGS в R, выполнив следующие шаги.
На первом этапе мы пишем нашу модель в текстовом формате:
Затем мы используем JAG для моделирования. Здесь я установил значение JAG для имитации пространства параметров θ 10 000 раз. После такой выборки мы можем получить выборочные данные θ=(β0;β1;τ), как показано ниже.
В
Теперь мы делаем 10 000 итераций пространства параметров θ, не забывая передавать формулу:
В
Это означает, что если мы заменим каждую итерацию на x = 168 см, мы найдем 10 000 значений веса и, таким образом, получим распределение веса при росте 168 см.
Теперь мы вычисляем процентиль моего веса, учитывая мой рост. Все, что мы можем сделать, это найти распределение процентилей моего веса в зависимости от моего роста.
В
Этот график говорит нам о том, что мой вес (при росте 168 см), скорее всего, составит около 0,3% от смоделированных данных для населения Вьетнама. Например, мы можем найти процентили, в которых мой вес находится в верхнем 40-м процентиле или ниже.
Таким образом, неопровержимые данные свидетельствуют о том, что при росте 168 см и весе 58 кг я попадаю в нижний процентиль распределения вьетнамского населения. Может быть, пришло время пойти в спортзал и набрать несколько фунтов. В конце концов, если вы не можете доверять результатам байесовской статистики, чему еще вы можете доверять?
Оригинальная ссылка:
https://towardsdatascience.com/how-bayesian-statistics-convinced-me-to-hit-the-gym-fa737b0a7ac
Адрес источника R:
https://github.com/tuangauss/Various-projects/blob/master/R/bayesian_gym.R
*Эта статья составлена и составлена AI Toutiao, пожалуйста, свяжитесь с редактором для перепечатки (WeChat 1092722531)