Введение в оценку плотности вероятности

математика

При изучении теории вероятностей часто встречаются всякие странные названия, в некоторых книгах только описывается, как их решать, но никогда не объясняется, почему они называются и для чего используются, эта статья познакомит с ними.Что такое оценка плотности вероятности и для чего она используется, в основном обратитесь к сообщению в блоге Джейсона Брауна-Ли для ознакомления.

Следующие существительные будут введены в английских сокращениях, резюмированных следующим образом:

  • плотность вероятности (PD)
  • функция плотности вероятности (PDF)
  • Оценка плотности вероятности (PDE)

Отношения между PD&PDF&PDE

В одном предложении плотность вероятности равна:Плотность вероятности — это отношение между наблюдением и его вероятностью.

Один результат случайной величины может произойти с низкой вероятностью, а другие результаты могут произойти с большей вероятностью.

Общий вид плотности вероятности называетсяраспределение вероятностей, распространенными распределениями вероятностей являются равномерное распределение, нормальное распределение, экспоненциальное распределение и другие названия. Расчет вероятности конкретного исхода случайной величины выполняется с помощьюФункция плотности вероятностизавершить, именуемыйPDF (Probability Dense Function).

Так в чем же польза функций плотности вероятности? Очень полезно! Например, мы можем использовать PDF для оценки надежности выборки, а затем решить, является ли выборка выбросом. Кроме того, иногда наши входные данные должны использовать PDF, если они должны подчиняться определенному распределению.

Но обычно мы не знаем PDF случайной величины, поэтому нам нужно продолжать аппроксимировать PDF, и процесс аппроксимацииОценка плотности вероятности.

graph LR
A[概率密度函数 \] -->|描述 \| B(概率密度 \)
C[概率密度估计 \] -->|估计 \| A(概率密度函数 \)

В процессе оценки плотности случайных величин необходимо выполнить несколько шагов.

Первый шаг — использовать простойГистограммаисследовать плотность наблюдений в случайной выборке. Из гистограммы мы можем определить обычное, простое для понимания доступное распределение вероятностей, такое как нормальное распределение. Если распределение сложное, нам может потребоваться подобрать модель для оценки распределения.

В следующих подразделах мы подробно рассмотрим эти шаги по очереди.

Для простоты мы сосредоточимся на одномерных данных, таких как случайная величина. Хотя эти шаги работают для многомерных данных, они становятся более сложными по мере увеличения числа переменных.

Гистограмма плотности

Гистограмма — это график, который сначала группирует наблюдения по ячейкам, а затем подсчитывает количество событий в каждой ячейке. Затем частота подсчетов или наблюдений в каждом бине представляется в виде гистограммы с бинами на оси x и частотой на оси y.

Также важно количество и размер ящиков. Например, если диапазон наблюдений составляет от 1 до 100, то мы можем разделить их двумя следующими способами:

  • 3 коробки (1-33, 34-66, 67-100): деление более крупное
  • 10 полей (1-10,11-20,...,91-100): деление более тонкое, и информация о плотности может быть извлечена лучше, но сумма вычислений будет больше

Используйте python для достижения эффекта нормального распределения

# example of plotting a histogram of a random sample
from matplotlib import pyplot
from numpy.random import normal

# generate a sample
sample = normal(size=1000)
# plot a histogram of the sample
pyplot.hist(sample, bins=10)
pyplot.show()

pyplot.hist(sample, bins=3)
pyplot.show()

Результат выглядит следующим образом: (bin=10 слева, bin=3 справа)

Параметрическая оценка плотности

Форма гистограммы большинства случайных выборок будет соответствовать некоторому хорошо известному распределению вероятностей. Потому что эти распределения вероятностей часто повторяются в разных или неожиданных сценариях. Знакомство с этими распространенными распределениями вероятностей поможет нам идентифицировать соответствующие распределения на гистограмме. Как только мы подтвердим, что гистограмма следует известному распределению, следующее, что нам нужно сделать, это оценить параметры этого распределения, так называемыеПараметрическая оценка плотности

Например, в приведенном выше примере мы можем приблизительно предположить, что оно подчиняется нормальному распределению, взглянув на гистограмму слева, поэтому нам нужно только позже запросить это нормальное распределение. Кроме того, мы знаем, что нормальное распределение определяется только двумя параметрами (при условии одномерного случая), а именно средним значением и дисперсией, поэтому мы решаем плотность вероятности, соответствующую этой гистограмме, находя среднее значение и дисперсию наблюдаемых значений. предварительный расчет.

Код реализации и визуализация следующие:

# example of parametric probability density estimation
from matplotlib import pyplot
from numpy.random import normal
from numpy import mean
from numpy import std
from scipy.stats import norm
# generate a sample
sample = normal(loc=50, scale=5, size=1000)
# calculate parameters
sample_mean = mean(sample)
sample_std = std(sample)
print('Mean=%.3f, Standard Deviation=%.3f' % (sample_mean, sample_std))
# define the distribution
dist = norm(sample_mean, sample_std)
# sample probabilities for a range of outcomes
values = [value for value in range(30, 70)]
probabilities = [dist.pdf(value) for value in values]
# plot the histogram and pdf
pyplot.hist(sample, bins=10, density=True)
pyplot.plot(values, probabilities)
pyplot.show()

pde

Следует отметить, что иногда наблюдаемые нами данные не подчиняются явно известному распределению, поэтомуОбычно нам нужно выполнить определенное преобразование данных, а затем выполнить оценку плотности параметров..

  • Например, нам нужно сначала нормализовать данные
  • Или нам нужно сначала удалить некоторые выбросы, потому что существование этих точек может серьезно повлиять на оценку плотности позже.
  • Когда наши данные значительно искажены влево (или вправо), мы можем взять логарифм или квадратный корень данных или, в более общем случае, использовать степенное преобразование (например,Преобразование Бокса-Кокса).

Шаги оценки плотности параметров резюмируются следующим образом:

Loop Until Fit of Distribution to Data is Good Enough:

  1. Estimating distribution parameters
  2. Reviewing the resulting PDF against the data
  3. Transforming the data to better fit the distribution
graph TD
D --> |Not good \ | A
D --> |Good enough  \| E(End \)
A[Estimating distribution parameters \] --> B(Reviewing the resulting PDF against the data \)
B --> C(Transforming the data to better fit the distribution \)
C --> D{loop \}

Непараметрическая оценка плотности

В некоторых случаях выборка данных может не походить на обычное распределение вероятностей, или распределение может быть не подходящим. Это часто имеет место, особенно когда данные имеют два пика (бимодальное распределение) или несколько пиков (мультимодальное распределение). В этом случае оценка плотности параметров становится затруднительной, поэтомуНепараметрическая оценка плотностипоявившийся.

фактическиНепараметрическая оценка плотностиЕсть еще параметры, но этот параметр иПараметрическая оценка плотностиПараметры у разные. Параметры последнего могут напрямую управлять распределением, а количество параметров обычно задается заранее, например, нормальное распределение имеет всего два параметра: среднее и дисперсию. Вместо параметрической оценки плотности для оценки плотности используются все выборки, другими словами, наблюдения каждой выборки рассматриваются как параметры. Обычно используемые непараметрические методы для оценки функции плотности вероятности непрерывных случайных величин:сглаживание ядра,илиОценка плотности ядра, именуемыйKDE (Kernel Density Estimation).

KDE на самом деле является математической функцией, которая возвращает вероятность заданного значения случайной величины. Ядро (функция ядра) может эффективно сглаживать или интерполировать вероятности в диапазоне результатов случайной переменной, так что сумма вероятностей равна 1. Ядро взвешивает вклад наблюдений в выборку данных в соответствии с отношением или расстоянием между наблюдениями выборки данных и заданной выборкой запроса запрошенных вероятностей.

Есть два важных параметра для непараметрической оценки плотности, а именно

  • параметр сглаживания: этот параметр иногда называютпропускная способность. Поскольку мы каждый раз оцениваем вероятность новой выборки на основе нескольких выборок, пропускная способность фактически относится к тому, сколько выборок мы используем для прогнозирования вероятности новой выборки, что также можно просто понимать как размер скользящего окна. Слишком большая полоса пропускания может привести к грубой оценке из-за потери слишком большого количества деталей; слишком маленькая полоса пропускания может быть недостаточно гладкой из-за слишком большого количества деталей и, следовательно, не может достаточно обобщить другие новые выборки.

  • Функция ядра (ядро): Функция, используемая для управления вкладом выборок в наборе данных в оценку вероятности новой точки выборки.

Ниже также приведен пример для интуитивного понимания непараметрической оценки плотности.

Ниже приведены две гистограммы, когда мы устанавливаем разные значения интервалов. Видно, что слева два пика, а справа только один.

non-param

Мы также знаем, что при увеличении бинов до максимального значения выборки каждая точка выборки будет иметь свою вероятность, но в то же время это принесет другие проблемы.Вероятность значения, которое не появляется в выборка равна 0, а плотность вероятности Функция разрывная, что тоже является большой проблемой.

Принцип функции плотности ядра относительно прост: когда мы знаем распределение вероятностей определенной вещи, если определенное число появляется в наблюдении, мы можем думать, что плотность вероятности этого числа очень велика, а плотность вероятности это число относительно близко.Плотность вероятности также будет больше, а плотность вероятности чисел дальше от этого числа будет меньше.

Основываясь на этой идее, для первого числа в наблюдении мы можем использовать K, чтобы подогнать плотность вероятности очень малого рядом с большим в нашем воображении. Возьмите среднее значение нескольких функций распределения плотности вероятности, соответствующих каждому наблюдению. Если какие-то цифры важнее, можно взять средневзвешенное значение. Следует отметить, что оценка плотности ядра не позволяет найти истинную функцию распределения.

Note: Оценка плотности ядра на самом деле заключается в использовании данных + пропускной способности каждой точки данных в качестве параметра функции ядра через функцию ядра (например, гауссовую) для получения N функций ядра, а затем линейного наложения для формирования функции оценки плотности ядра. , После нормализации плотность плотности ядра является функцией плотности вероятности..

Ссылаться на:



MARSGGBOоригинальный


Если вы заинтересованы в сотрудничестве, пишите в личные сообщения

Электронная почта: marsggbo@foxmail.com


2019-12-29 09:51:01