Математические основы теории вероятностей

машинное обучение

Автор | Тивадар Данка Компилировать|ВКонтакте Источник | К науке о данных

Абстракция заключается в том, чтобы скрыть ненужные вещи и сосредоточиться только на важных деталях. Хотя временами это может показаться пугающим, это лучший инструмент для управления сложностью.

Если вы попросите n математиков определить, что такое математика, вы можете получить 2n разных ответов. Мое определение состоит в том, что это наука об абстрагировании вещей до тех пор, пока не останется только ядро, обеспечивающее окончательную основу для рассуждений о чем угодно.

Вы когда-нибудь задумывались, какова вероятность? Вы определенно используете его, чтобы рассуждать о данных, проводить статистический анализ и даже строить для себя алгоритмы вывода посредством статистического обучения. В этом посте мы подробно изучим теорию вероятностей.

Предварительное знание

Чтобы пройти, вам не нужна продвинутая математика, я сосредоточусь на объяснении всего, начиная с основ. Тем не менее, полезно знать следующее:

  • Наборы и операции над множествами, такие как объединение, пересечение и разность.

  • Пределы и некоторые основные вычисления.

События и показатели

Вероятность можно эвристически рассматривать как функцию, измеряющую вероятность наступления события. Но математически непонятно, что такое события и метрики. Прежде чем мы сможем должным образом обсудить вероятность, нам нужна прочная основа. Итак, начнем с событий.

событие

«Какова вероятность того, что я выкину на этой кости нечетное число?»

Когда мы говорим о вероятности, этот простой вопрос приходит нам на ум в качестве примера. В этой простой задаче событие выбрасывает нечетное число.

Для математического моделирования мы используем множества. Базовый набор «полный набор», содержащий экспериментальные результаты, равен Ω={1, 2, 3, 4, 5, 6}, а события являются подмножествами Ω. Здесь выбрасывание нечетного числа соответствует подмножеству A={1, 3, 5}.

Итак, чтобы определить вероятность, нам нужен набор базисного множества Ω и его подмножества Σ, которые мы называем событиями. Однако Σ не может быть просто любым набором подмножеств. Должны быть соблюдены три условия.

  • Ω — это событие.

  • Если X — событие, то его дополнение Ω\X также является событием. То есть событие, которое не происходит, также является другим событием.

  • Союз событий также должен быть событиями. То есть объединение события и других событий также является событием.

Если эти условия выполняются, Σ называется σ-алгеброй. В соответствующих математических терминах:

В нашем случае имеем

Более интересная ситуация возникает, когда Ω — множество действительных чисел. Как мы увидим позже, могут происходить очень странные вещи, если все подмножества действительных чисел рассматривать как события.

Описать σ-алгебры

Эти пространства событий, определяемые σ-алгебрами, трудно описать. Сразу видно, что для того, чтобы иметь осмысленное пространство событий на нетривиальном базисном множестве Ω, у нас должно быть бесконечное количество событий.

Например, мы стреляем пулей в доску и хотим вычислить вероятность попадания в область. В этих случаях достаточно указать некоторые подмножества и взять наименьшую σ-алгебру, содержащую эти подмножества.

Предположим, мы снимаем прямоугольную тарелку. Если мы говорим, что наше пространство событий является наименьшей σ-алгеброй, содержащей все прямоугольные подмножества пластины, то мы

  1. Существует очень простое описание σ-алгебр,

  2. Будут разные формы, потому что σ-алгебры замкнуты относительно объединения.

Многие множества можно описать как бесконечные объединения прямоугольников, как показано ниже.

Мы называем множество прямоугольников внутри пластины порождающим множеством, а наименьшую σ-алгебру порождающей σ-алгеброй.

Вы можете думать об этом процессе генерации как о получении всех элементов сгенерированного набора, а также о получении объединений и дополнений всеми возможными способами.

Теперь, когда у нас есть математическая основа для обработки событий, мы должны обратить внимание на измерения.

Измерение

Интуитивно измерить что-то легко, но формализовать это сложно. Мера — это, по сути, функция, которая отображает набор в число. На простом примере измерение объема 3D-объекта может показаться простым, но даже здесь возникают серьезные проблемы. Можете ли вы представить себе объект, площадь которого вы не можете измерить?

Может быть, вы не можете сразу, но точно нет. Можно видеть, что если каждое подмножество пространства имеет четко определенный объем, то можно взять сферу единичного объема, разделить ее на части и сложить вместе две сферы единичного объема.

Это так называемый парадокс Банаха-Тарского. Поскольку вы не можете этого сделать, вы не можете измерить объем каждого подмножества в пространстве.

Но в таком случае какие меры? На самом деле у нас есть только три условия:

  1. Мера всегда должна быть положительной;
  2. Мера пустого множества должна быть равна нулю;
  3. Если сложить меры непересекающихся множеств, то получится мера их объединения.

Для их корректного определения нам понадобятся базисное множество Ω и Σσ-алгебры подмножеств. функция

является мерой, если

Атрибут 3. называется σ-аддитивностью. Если у нас есть только конечные множества, мы будем просто называть аддитивность меры.

Это определение является просто абстракцией меры объема. Это может показаться странным, но эти три свойства являются наиболее важными. Все остальное исходит от них. Например, у нас есть

Это потому, что A\B и B не пересекаются, их объединение равно A.

Еще одним важным свойством является непрерывность измерения. это

Это свойство аналогично определению непрерывности вещественной функции, поэтому название не случайно.

описательная мера

Как мы видели в σ-алгебре, вам нужно указать только набор образующих, а не полную σ-алгебру. Это очень полезно для нашей обработки. Хотя метрика определена на σ-алгебре, достаточно определить метрику на порождающем подмножестве, поскольку она определяет меру каждого элемента в σ-алгебре в силу σ-аддитивности.

Определение вероятности

Теперь все настроено на математическое определение вероятностей.

Вероятностное пространство определяется кортежами

где Ω — базисное множество, Σ — σ-алгебра его подмножеств, а P — такая метрика

Следовательно, вероятность тесно связана с эквивалентностью площади и объема. Площадь, объем и вероятность измеряются в соответствующих пространствах. Однако это довольно абстрактное понятие, поэтому приведем несколько примеров.

бросить монету

Простейшее вероятностное пространство описывается событием подбрасывания монеты. Предположим, мы кодируем орла с 0 и решки с 1

Из-за природы σ-алгебр и мер вам нужно только определить вероятности события {0} (голова) и события {1} (хвост), что полностью определяет меру вероятности.

случайный номер

Более интересным примером является генерация случайных чисел. Если вы знакомы с Python, вы, вероятно, использовали функцию random, которая выдает вам случайное число от 0 до 1. Хотя это может показаться загадочным, довольно просто описать это в терминах вероятностных пространств.

Еще раз отметим, что этого достаточно, чтобы определить вероятность генерации каждого элемента набора. Например, у нас есть

Чтобы увидеть более сложный пример, что такое P({0.5})? Как рассчитать вероятность выбора 0,5? (или любое другое число от 0 до 1) Для этого нам понадобится свойство зависимой меры. У нас есть

где это справедливо для всех ε>0. Здесь мы используем аддитивность вероятностной меры. Следовательно, это означает

Опять же, поскольку это применимо ко всем ε>0. Это означает, что вероятность меньше любого положительного действительного числа, поэтому она должна быть равна нулю.

Есть аналогичный аргумент для любого 0≤x≤1. Может показаться удивительным, что вероятность выбора определенного числа равна нулю. Итак, после генерации случайного числа и наблюдения за результатом знайте, что вероятность того, что это произойдет, равна нулю. Тем не менее, у вас все еще есть вывод перед вами.

Возможны события с нулевой вероятностью.

распределение и плотность

Мы прошли долгий путь. Однако с практической точки зрения использование мер и σ-алгебр не очень удобно. К счастью, это не единственный способ борьбы с вероятностью.

Для простоты предположим, что наш базисный набор — это набор действительных чисел. В частности, мы имеем вероятностное пространство (Ω, ∑, P), где

P — любая вероятностная мера на этом пространстве. Мы уже видели, что вероятность события (а, b) определяет вероятность других событий в пространстве событий. Однако мы можем еще больше сжать эту информацию. Собственно, функция

Содержит всю информацию, которую мы должны знать о вероятностных мерах. Вдумайтесь: у нас есть

Для всех a и b это называется функцией распределения P. Для всех вероятностных мер функция распределения удовлетворяет следующим свойствам:

(Четвертый называется непрерывностью слева. Не подчеркивайте, что если вы не знакомы с определением непрерывности, то оно сейчас не нужно.)

Опять же, если это слишком абстрактно, давайте рассмотрим пример. Для предыдущего примера генерации случайных чисел мы имеем

Это называется равномерным распределением на [0, 1].

Подводя итог, если вы дадите мне меру вероятности, я дам вам функцию распределения, которая описывает меру вероятности.

Однако это не лучший выбор в отношении функций распределения. С математической точки зрения, если вы дадите функции свойства 1–4, указанные выше, я также смогу построить из нее меру вероятности. Кроме того, если две функции распределения везде равны, то и соответствующие им вероятностные меры также одинаковы.

Поэтому с математической точки зрения функции распределения и вероятностные меры в некоторых случаях совпадают. Это очень полезно для нас.

функция плотности

Как мы видим, функция распределения берет всю информацию из вероятностной меры и сжимает ее. Это отличный инструмент, но иногда неудобный. Например, вычисление ожидаемого значения затруднено, когда у нас есть только функция распределения. (Если вы не знаете, чего ожидать, не волнуйтесь, мы не будем использовать его прямо сейчас.)

Во многих практических приложениях мы используем функции плотности для описания мер вероятности. функция

есть функция плотности вероятностной меры P, если

для всех E в σ-алгебре Σ. То есть эвристически вероятность данного множества определяется площадью под кривой f(x). Это определение может показаться простым, но здесь скрыто много деталей, в которые я не хочу вдаваться.

Вы, вероятно, знакомы со знаменитым законом Ньютона-Лейбница в исчислении. Вот, то есть

В основном это означает, что если функция распределения дифференцируема, ее производная является функцией плотности.

Существуют определенные распределения вероятностей, в которых в замкнутом виде известна только функция плотности. (Закрытая форма означает, что она может быть представлена ​​конечным числом стандартных операций и элементарных функций). Одно из самых известных распределений — это распределение Гаусса. его определение

где μ и σ — параметры.

функция плотности

Функция распределения

Как бы это ни казалось удивительным, мы не можем представить гауссову функцию распределения в замкнутом виде. Дело не в том, что математики еще не поняли этого, а в том, что это невозможно. (Поверьте мне, доказать то, что математически невозможно, иногда чрезвычайно сложно.)

конец

То, что мы видели до сих пор, — это только верхушка айсберга. (Подумайте об этом, это можно сказать в конце каждого обсуждения математики). Здесь мы только определяем, что такое вероятность, математически (полу) точным способом.

По-настоящему интересные вещи, вроде машинного обучения, еще впереди.

Оригинальная ссылка:в сторону data science.com/he и — голова лошади и лошадь…

Добро пожаловать на сайт блога Panchuang AI:panchuang.net/

sklearn машинное обучение китайские официальные документы:sklearn123.com/

Добро пожаловать на станцию ​​сводки ресурсов блога Panchuang:docs.panchuang.net/