Математические основы машинного обучения: вероятность и статистика

машинное обучение
Математические основы машинного обучения: вероятность и статистика

Можно сказать, что линейная алгебра обеспечивает представление данных и методы расчета для машинного обучения, а вероятность и статистика обеспечивают теоретическую основу для разработки самих алгоритмов машинного обучения.

Частотистская школа считает, что хотя параметры и неизвестны, они являются объективно существующими фиксированными значениями, поэтому для определения параметров обычно используется оценка максимального правдоподобия. Байесовская школа считает, что параметр является ненаблюдаемой случайной величиной, которая сама имеет определенное распределение, поэтому можно предположить, что параметр подчиняется априорному распределению, а затем на основе имеющихся данных рассчитывается апостериорное распределение параметра.

В этой статье будут рассмотрены общие вероятностные и статистические знания в машинном обучении.

 

1. Основные понятия

1.1 Случайный эксперимент (Эксперимент)

Рандомизированные тесты относятся к тестам с неопределенными результатами, которые отвечают трем характеристикам:

  • можно повторить в тех же условиях
  • Более одного результата на тест, и все возможные результаты определены заранее
  • Не уверен, какой результат получится, пока не проведешь эксперимент

 

1.2 Пример пространства

Выборочное пространство — это множество всех возможных результатов случайного эксперимента. Обычно обозначается как S (пробел)

Например

  • Если подбрасывается монета, то выборочное пространство равно {орел, решка};
  • Если бросается игральная кость, то выборочное пространство равно {1,2,3,4,5,6}{\displaystyle \{1,2,3,4,5,6\}}

 

1.3 Случайное событие

Любое подмножество в выборочном пространстве называется случайным событием, обычно обозначаемым E (событие). Это относится к набору возможных результатов одного эксперимента, а не к набору нескольких экспериментов.

Это может показаться немного сложным, вот пример:

  • Событие 1: бросается игральная кость, и выпадает число 2, что является событием.
  • Событие 2: При бросании игральной кости точка 2 не появляется, также является событием.

Но ясно, что наступление события 2 гораздо более вероятно, чем событие 1 (событие 2 более вероятно, чем событие 1)

 

1.4 Вероятность

Для события E обозначим P(E) как вероятность того, что событие E произойдет

Есть три аксиомы:

  • 0
  • P(S) =1 , вероятность выборочного пространства равна 1
  • P(i=1nAi)=i=1nP(Ai){\displaystyle P\left(\bigcup _{i=1}^{n }A_{i}\right) = \sum _{i=1}^{n}P(A_{i})}

 

2. Случайные величины

2.1 Случайная величина

Случайная величина, обычно обозначаемая как X, представляет собой функцию, которая отображает каждый элемент в выборочном пространстве в реальное значение. По сути, случайная величина — это понятие, которое количественно определяет случайные события, см. рисунок ниже:

Подбрасывание монеты покажет орел и решку Мы представляем орел и решку как 0 и 1. В настоящее время {0, 1} — это все возможные значения случайной величины. На самом деле нам не нужно представлять решку и орел в виде {0, 1}, мы хотим представить их в виде {-100, 20}.

Случайные величины можно разделить на:

  • дискретная случайная величина: может принимать только определенные значения, например X = {1, 2, 3}, X — дискретная случайная величина
  • непрерывная случайная величина: Может принимать любое значение в диапазоне, например температура в Шанхае, рост человека

 

2.2 Кумулятивная функция распределения (CDF)

Кумулятивная функция распределения определяется следующим образом:

  • FX(x)=P(Xx){\displaystyle F_{X}(x)=\operatorname {P} (X\leq x)}

Свойства интегральной функции распределения:

  • limxFX(x)=0{\displaystyle \lim _{x\to -\infty }F_{X}(x)=0}
  • limx+FX(x)=1{\displaystyle \lim _{x\to +\infty }F_{X}(x)=1}

 

2.3 Функция плотности вероятности (PDF)

Функция плотности вероятности — это функция, описывающая вероятность того, что выходное значение случайной величины находится вблизи определенной точки значения. Простое понимание состоит в том, что когда X принимает определенное значение, его вероятность

Связь между функцией плотности вероятности и кумулятивной функцией распределения:

  • Функция плотности вероятности может быть получена путем вывода кумулятивной функции распределения
  • Кумулятивная функция распределения может быть получена путем интегрирования функции плотности вероятности

 

2.4 Ожидание

Математическое ожидание дискретной случайной величины представляет собой сумму каждого возможного исхода эксперимента, умноженную на его вероятность исхода. Ожидаемое значение может не совпадать с каждым исходом, другими словами, ожидаемое значение — это средневзвешенное значение выходных значений переменной.

Например:

Чтобы бросить правильный шестигранный кубик, математическое ожидание каждого «очка» равно 3,5 и рассчитывается следующим образом:

  • E(X)=116+216+316+416+516+616=1+2+3+4+5+66=3.5{\displaystyle {\begin{aligned}\operatorname {E} (X)&=1\cdot {\frac {1}{6}}+2\cdot {\frac {1}{6}}+3\cdot {\frac {1}{6}}+4\cdot {\frac {1}{6}}+5\cdot {\frac {1}{6}}+6\cdot {\frac {1}{6}}\\[6pt]&={\frac {1+2+3+4+5+6}{6}}=3.5\end{aligned}}}

еслиX{\displaystyle X}является непрерывной случайной величиной, существует соответствующая функция плотности вероятностиf(x){\displaystyle f(x)} , если интегралxf(x)dx{\displaystyle \int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x}абсолютно сходится, тоX{\displaystyle X}Ожидаемое значение может быть рассчитано как:E(X)=xf(x)dx{\displaystyle \operatorname {E} (X)=\int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x}, Он предназначен для непрерывных случайных величин, что в основном совпадает с алгоритмом для ожидаемого значения дискретных случайных величин.Поскольку выходное значение является непрерывным, суммирование изменяется на интегральное

 

2.5 Дисперсия и стандартное отклонение

Дисперсия случайной величины описывает степень ее дисперсии, то есть насколько далеко переменная отличается от своего ожидания.

Формула дисперсии:

  • Var(X)=E[(Xмю)2]{\displaystyle \operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]}, вмю\muзаXXожидания

среднеквадратичное отклонение: Положительный квадратный корень из дисперсии называется стандартным отклонением случайной величины.

 

2.6 Ковариация

КовариацияИспользуется для измерения совместной вариации двух случайных величин. В то время как дисперсия является частным случаем ковариации, ковариация переменной с самой собой

Формула ковариации:

  • cov(X,Y)=E((Xмю)(Yн))=E(XY)мюн{\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} ((X-\mu )(Y-\nu ))=\operatorname {E} (X\cdot Y)-\mu \nu },

    в,мю\muзаXXожидания,н\nuзаYYожидания

 

3. Условная вероятность и теорема Байеса

3.1 Условная вероятность

Условная возможность: Вероятность того, что событие A произойдет при условии, что произойдет событие B, обозначается какP(AB)P(A|B), читать по-английски какthe conditional probability of A given B

совместная вероятность: представляет вероятность одновременного возникновения двух событий, а совместная вероятность событий A и B выражается как:P(AB){\displaystyle P(A\cap B)}илиP(AB){\displaystyle P(AB)}

Формула условной вероятности: При условии, что событие B происходит, условная вероятность того, что событие A произойдет, равна:P(AB)=P(AB)P(B){\displaystyle P(A|B)={\frac {P(AB)}{P(B)}}}

 

3.2 Правило Байеса (правило Байеса)

Теорема Байеса описывает вероятность события, происходящего при некоторых известных условиях.

Формула теоремы Байеса:P(AB)=P(BA)P(A)P(B) ⁣{\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}\!}

Вывод теоремы Байеса:

  1. Согласно определению условной вероятности вероятность того, что событие А произойдет при условии, что произойдет событие В, равна:

    P(AB)=P(AB)P(B){\displaystyle P(A|B)={\frac {P(AB)}{P(B)}}}

  2. Точно так же вероятность того, что событие B произойдет при условии, что произойдет событие A:

    P(BA)=P(AB)P(A) ⁣{\displaystyle P(B|A)={\frac {P(AB)}{P(A)}}\!}

  3. Составив и объединив эти два уравнения, мы можем получить:

    P(AB)P(B)=P(AB)=P(BA)P(A) ⁣{\displaystyle P(A|B)\,P(B)=P(AB)=P(B|A)\,P(A)\!} ,

    который:P(AB)P(B)=P(BA)P(A) ⁣{\displaystyle P(A|B)\,P(B) = P(B|A)\,P(A)\!}

  4. когдаP(B)P(B)Если не равно 0, разделите обе части наP(B)P(B),придется:

    P(AB)=P(AB)P(B){\displaystyle P(A|B)={\frac {P(AB)}{P(B)}}}, формула Байеса

В теореме Байеса каждое существительное имеет условное имя, а в теории Байеса:

  • P(A)P(A)даAAаприорная вероятность , потому что она не принимает во вниманиеBB;
  • P(AB)P(A|B)даноBBВремяAAВероятность появления называется апостериорной вероятностью;
  • иP(BA)P(B|A)- вероятность B, когда исход A известен, называемая вероятностью / вероятностью B

Наиболее важным применением теоремы Байеса является байесовский вывод, который является очень важной частью машинного обучения.

 

4. Распределение вероятностей

4.1 Распределение Бернулли

Распределение Бернулли, также известное как распределение 0-1.

Его функция массы вероятности (для дискретных распределений):

  • Вероятность 1 (успех):P(X=1)=p(0p1){\displaystyle P(X=1) = p(0{\leq }p{\leq }1)},

  • Вероятность 0 (неудачи) равна:P(X=0)=1p{\displaystyle P(X=0) = 1-p}

Ожидание:

  • E[X]=i=01xifX(x)=0+p=p{\displaystyle \operatorname {E} [X]=\sum _{i=0}^{1}x_{i}f_{X}(x)=0+p=p}

Дисперсия:

  • Var[X]=i=01(xiE[X])2fX(x)=(0p)2(1p)+(1p)2p=p(1p){\displaystyle \operatorname {Var} [X]=\sum _{i=0}^{1}(x_{i}-E[X])^{2}f_{X}(x)=(0-p)^{2}(1-p)+(1-p)^{2}p=p(1-p)}

 

4.2 Биномиальное распределение

Биномиальное распределение — это дискретное распределение вероятностей n независимых испытаний Бернулли. Когда n = 1, биномиальное распределение является распределением Бернулли.

Вероятность получить ровно k успехов в n испытаниях равнаФункция массы вероятности:

  • f(k,n,p)=Pr(X=k)=Cnkpk(1p)nk{\displaystyle f(k,n,p)=\Pr(X=k)={C_n^k}p^{k}(1-p)^{n-k}}

    для k = 0, 1, 2, ..., n, гдеCnk=n!k!(nk)!{\displaystyle {C_n^k}={\frac {n!}{k!(n-k)!}}}

Ожидание:

  • E[X]=np{\displaystyle \operatorname {E} [X]=np}

дисперсия:

  • Var[X]=np(1p){\displaystyle \operatorname {Var} [X]=np(1-p)}

 

4.3 Геометрическое распределение

Геометрическое распределение относится к распределению количества испытаний X, необходимых для достижения успеха в эксперименте Бернулли.

Функция массы вероятности:

  • P(X=k)=(1p)k1p{\displaystyle P(X=k)=(1-p)^{k-1}\,p\,}

Ожидание:

  • E(X)=1p{E} (X)={\frac {1}{p}}

Дисперсия:

  • Var(X)=1pp2{Var} (X)={\frac {1-p}{p^2}}

 

4.4 Распределение Пуассона

Распределение Пуассона описывает распределение вероятностей числа случайных событий, происходящих в единицу времени.

Например:

  • Количество запросов на обслуживание, полученных сервисным центром в течение определенного периода времени.
  • Количество звонков, поступивших в центр обслуживания клиентов за определенный период времени
  • Количество отказов машины за определенный период времени

Функция массы вероятности распределения Пуассона:

  • P(X=k)=eλλkk!{\displaystyle P(X=k)={\frac {e^{-\lambda }\lambda ^{k}}{k!}}} ,

    λ\lambdaэто единица времени,kkколичество вхождений

Ожидание и дисперсия:

  • Случайная величина, которая подчиняется распределению Пуассона, а ее математическое ожидание и дисперсия равны, как иλ\lambda:

    E(X)=V(X)=λ{\displaystyle} {\displaystyle E(X)=V(X)=\lambda }

 

4.5 Нормальное распределение

Также известен как распределение Гаусса.

Если случайная величина X подчиняется позиционному параметрумю{\displaystyle \mu }, параметр масштабао{\displaystyle \sigma }Нормальное распределение , обозначаемое как:

  • XN(мю,о2){\displaystyle X\sim N(\mu ,\sigma ^{2})}

Его функция плотности вероятности (PDF):

  • f(x)=1о2число Пи  e(xмю)22о2 ⁣{\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\;e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}\!}

Ожидания нормального распределениямю{\displaystyle \mu }определяет место распределения; его дисперсияо2\sigma ^{2}определяет величину распределения

 

4.6 Экспоненциальное распределение

Экспоненциальное распределение может использоваться для представления временного интервала между случайными событиями.

Например:

  • Интервал времени между входом пассажиров в аэропорт
  • Интервал времени между звонками в центр обслуживания клиентов

Функция плотности вероятности:

  • f(x;λ)=λe(λx)f(x; \lambda) = \lambda e^{-(\lambda x)},

    λ\lambdaэто количество раз, когда событие происходит в единицу времени

Кумулятивная функция распределения:

  • F(x;λ)=1λe(λx)F(x; \lambda) = 1- \lambda e^{-(\lambda x)}

Ожидаемое значение:

  • E[X]=1λ{\displaystyle \mathbf {E} [X]={\frac {1}{\lambda }}}

    Пример: если вы получаете в среднем 2 звонка в час, то вы ожидаете полчаса ожидания для каждого звонка.

Дисперсия:

  • V[X]=1λ2{\displaystyle \mathbf {V} [X]={\frac {1}{\lambda ^{2}}}}