Как сэмплировать с научной точки зрения

машинное обучение

Вот твоя раздача (смешно

title

Как описать характеристики этого распределения, набрав всего 1 тыс. точек?

Почему образец?

Ближайшая цель — использовать дискретные данные.приблизительныйВместо непрерывных (или изначально дискретных) данных, например, для вычисления интеграла очень сложной функции f, предполагая, что найти исходную функцию F этой функции очень сложно, то можно использовать приближенное значение вместо реальная стоимость. Простой и эффективный способ — вычислить значение f на каждом расстоянии 0,01 в области определения, а затем использовать небольшую прямоугольную область — 0,01*f(x) для представления интеграла функции в этом диапазоне и, наконец, площадь всей функции вычисляется многими Подставляем сумму площадей маленьких прямоугольников. Вычисление интегралов функций действительно является важным применением выборки.

Выборка может значительно снизить трудность расчета, но все же есть глубокие знания о том, как проводить выборку, и распределение результатов выборки должно быть близко к реальному распределению.

Другими словами, следует собирать больше точек там, где плотность вероятности высока, и меньше точек — там, где плотность вероятности низка.

1.png

Например, в приведенном выше примере также собирается 1w точек, и эффект выборки слева больше соответствует реальному распределению.

Как примерить?

Выборка распределения вероятностей

Теперь предположим, что есть распределение, функция плотности вероятности (PDF) распределения известна, и его функция распределения (cdf) может быть вычислена. Затем с помощью компьютера сгенерируйте равномерное распределениеY \sim U(0,1), результат выборки по Y отображается обратно на X с помощью cdf, и получается равномерная выборка распределения. Идея выборки представлена ​​визуально на следующем рисунке.

2.png

Окончательная формула:

Y \sim U(0,1) \\ X = cdf^{−1}(Y)

Но что, если pdf слишком сложен для расчета cdf? Тогда нет возможности произвести выборку с распределением вероятностей.

отклонить выборку

пожалуйста помоги

Отклонить выборку, введя распределение известных pdf и cdf, чтобы обойти и вычислить распределение, которое было трудно выбрать раньше. Это введенное распределение называется «эталонным распределением», которое может быть записано какq(x), в то время как сэмпл для семплирования записывается какp(x). Отклонение выборки требует другого коэффициентаk, и убедитесь, что в интервале, в котором необходимо выполнить выборку,\forall x, kq(x) \ge p(x).

так какq(x)cdf известен, поэтому его легко получитьq(x)Разумная выборка , предполагая, что полученная выборкаX=\{x_1,\dots,x_n\}. Но это время принадлежитXРаспределение баллов не соответствуетq(x)распределение, то нужно только пройти каждую точкуx_i, при бросании «кости», которая может каждый раз генерировать равномерно распределенные случайные числа от 0 до 1, число u, полученное с помощью «кости», и скорость принятия\alpha = q(x_i)/p(x_i)для сравнения, еслиu \le \alphaПросто примите эту точку выборки, иначе ее можно будет отбросить.

Причина, по которой отбраковочная выборка является разумной, заключается в том, что ее физический смысл также очень интуитивен, поскольку она умножается на коэффициентkПосле того, как q(x) больше или равно p(x), набор точек выборки собирается в соответствии с распределением q(x)XАппроксимируйте площадь под кривой q(x), а коэффициент приемлемости представляет собой отношение площади под сравниваемым значением q(x) и p(x), поэтому оставшаяся точка, установленная после скрининга коэффициента приемлемости, аппроксимирует площадь под p (х) кривая .

Однако по-прежнему существует множество ограничений на отказ от выборки, например, q(x) должно быть как можно ближе к p(x), иначе эффективность выборки будет очень низкой. Во-вторых, выбор k должен быть правильным, и он должен быть как можно меньше, удовлетворяя при этом требованиям уравнения отбора проб.

Выборка по важности

также попросить помощника

Выборка по важности полезна при вычислении математического ожидания функции f относительно распределения p, т. е.E(f(x)), x \sim p. И это p не только трудно выбрать, но и реальное распределение является относительно смещенным, Другими словами, даже если некоторые точки выборки собраны, большинство этих точек выборки соответствует части с малым значением f, как показано на следующий рисунок.

IS.jpg

Чтобы решить эту проблему, вводится простое эталонное распределение q, и есть надежда, что проблема «отклонения от масс» p может быть улучшена с помощью q.

Коллективный подход таков, как сказано выше, для расчета ожиданийE(f(x)), там подробно написано

E(f(x))=\int_x{f(x)p(x)dx}

После введения q выполните перестановочное преобразование

E(f(x))=\int_x{f(x)\frac{p(x)}{q(x)}q(x)dx}

После такой операции исходное математическое ожидание f относительно p становитсяf(x)\frac{p(x)}{q(x)}Ожидания по поводу q! Поскольку выборка q проста и, как показано на рисунке выше, важная часть, которую изначально было нелегко собрать для f, зависит отq(x)влияние становится очень легко получить. Таким образом, желаемое отклонение не будет слишком большим из-за разреженности данных.

Другими словами, частота выборки важности в некоторых статьях все еще очень велика, и это действительно важная выборка.

MCMC

Основная роль этой статьи заключается в том, что полное название MCMC - марковская цепь Монте-Карло, что означает метод применения рандомизации в цепи Маркова. Цепь Маркова может быть описана переходной матрицей, когда задано начальное состояние, затем это начальное состояние начинает случайным образом переключать состояния под действием переходной матрицы. Другими словами, MCMC рассматривает цепи Маркова как инструмент для моделирования переходов состояний посредством рандомизации.

Когда дело доходит до Маркова, нужно сказать об очень важном свойстве, а именно о его «стационарном распределении». Если начальное состояние задано случайным образом, то запускается переход состояния, а затем подсчитывается частота появления каждого состояния. Этот процесс можно описать умножением матриц, предполагая, что начальное состояние равноA_0 \in R^{n \times 1}, матрица переходаM \in R^{n \times n}, то каждый переход можно рассматривать как такое преобразование

A_{t+1} = MA_t

Если начать с начального состояния, то состояние в момент времени t можно выразить как

A_t = M^{t}A_0

По мере того, как t продолжает увеличиваться, распределение становится примерно стабильным, как показано на следующем рисунке, даже если начальное распределение находится в каждом углу пространства, по мере продолжения итерации конечное распределение будет иметь тенденцию быть стабильным.

markov.png

Другими словами, стабильное распределение вероятностей, к которому сходится матрица перехода состояний нашей модели цепи Маркова, не зависит от нашего начального распределения вероятностей состояний.

Пока цепь Маркова сходится к стационарному распределению π, существует уравнение, называемое «детальный баланс»,

\pi(x)P(y|x) = \pi(y)P(x|y)

в уравненииP(y│x)- элемент в марковской переходной матрице, представляющий вероятность перехода от x к y. Это уравнение хорошо описывает природу марковской стационарности.

Поговорив о свойствах модели цепи Маркова, давайте начнем вводить тему, то есть как MCMC сочетает модель цепи Маркова с методом Монте-Карло и собирает выборочное распределение, которое согласуется с исходным распределением.

MH (Метрополис-Гастингс)

M-H — это реализация MCMC. Оглядываясь назад, как возникло это точно сбалансированное уравнение, приведенное выше? Первый и наиболее важный шаг — найти переходную матрицу M, которая удовлетворяет марковскому свойству, чтобы можно было получить последующее устойчивое распределение и, наконец, можно было достичь условия детального баланса.

Однако в соответствии с требованием «выборки исходного распределения» у нас есть только стационарное распределение (то есть само исходное распределение), но нет матрицы перехода состояний, удовлетворяющей стационарному распределению. Итак, как построить такую ​​матрицу? В конце концов, не все матрицы могут вывести желаемое стационарное распределение.

Подход M-H очень смелый: он использует случайную марковскую переходную матрицу Q размером с целевую переходную матрицу как часть переходной матрицы. Очевидно, в это время\pi(x)Q(y|x) \neq \pi(y)Q(x|y). Затем, чтобы сделать уравнения равными, вводится понятие, подобное коэффициенту принятия, упомянутому в выборке отбраковки. сделать\alpha(x,y) = min⁡(1,\frac{\pi(x)Q(y|x)}{\pi(y)Q(x|y)}), так строится тонкий баланс

\pi(x)Q(y|x)\alpha(x,y) = \pi(y)Q(x|y)\alpha(y,x)

Поскольку Q является случайным, то есть любая переходная матрица, удовлетворяющая марковскому свойству, может работать, поэтому для простоты Q можно даже установить в симметричную матрицу, а скорость принятия можно упростить следующим образом:\alpha(x,y) = min⁡(1, \pi(x) / \pi(y)). Шаги алгоритма M-H следующие:

  1. Входные данные должны быть взяты из стационарного распределения\pi, количество передач n;
  2. Случайным образом построить марковскую переходную матрицу Q;
  3. выбрать начальное состояниеx_0;
  4. для t = 1 до n:
    1. выборкаx^∗ \sim Q(x|x_{t−1});
    2. выборка из равномерного распределенияu \sim U(0,1);
    3. if u < \alpha(x_{t−1},x^∗): принять перевод, заказатьx_t = x^∗;
    4. иначе: не переводить, пустьx_t = x_{t−1};
  5. Вернуть собранный ряд x;

Кажется удивительным, что знаменитый MCMC может быть реализован с помощью программы, которая не может быть проще, но эффект выборки действительно превосходный.Давайте посмотрим на результаты выборки алгоритма M-H для распределения бета (5,12):

MH.png

код показывает, как показано ниже:

import random
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import beta

# 转移矩阵用正态分布
N = 5000
xs = [i for i in range(N)]
xs[0] = random.random()
p = beta(5, 12)
for i in range(1, N):
    x_star = random.uniform(0,1)    # 从U[0,1]中采样
    alpha = min(1, p.pdf(x_star) / p.pdf(xs[i-1]))
    u = random.uniform(0,1)
    xs[i] = x_star if u < alpha else xs[i-1]

plt.hist(xs, 50, density=1)
x = np.linspace(0, 1, 200)
plt.plot(x, [p.pdf(i) for i in x])
plt.show()

Gibbs

Гиббс подходит для выборки многомерных распределений и резюмирует свою идею в одном предложении: фиксируя случайные величины в других измерениях, случайные величины в оставшемся измерении по-прежнему удовлетворяют хрупкому равновесию. Первое, что нужно сделать, это найти правильный баланс. Теперь предположим, что вы хотите собрать двумерное совместное распределение\pi(x_1, x_2), есть две точки на распределенииA(x_1^1), x_2^1)и B (x_1 ^ 1, x_2 ^ 2), вы можете видеть, что их первое измерение одинаково, в это время\pi(x_1^1,x_2^1) \neq \pi(x_1^1, x_2^2). Это очевидно, так как же сделать его равным? Еще на стройке. так как\pi(x_1, x_2) = \pi(x_1)\pi(x_2|x_1), поэтому до тех пор, пока левая и правая части уравнения умножаются на пункт «у другой стороны есть, а у другой нет», уравнение установлено, то есть

\pi(x_1^1, x_2^1)\pi(x_2^2|x_1^1) = \pi(x_1^1,x_2^2)\pi(x_2^1|x_1^1)

который

\pi(A)\pi(x_2^2|x_1^1) = \pi(B)\pi(x_2^1|x_1^1)

Поскольку связь между точкой A и точкой B заключается в том, что определенное измерение одинаково, в процессе получения уравнения с помощью приведенной выше конструкции мы можем обнаружить, что если две точки в двумерном пространстве имеют одинаковую размерность, то взаимная трансформация этих двух точек Удовлетворяет хрупкий баланс.

{% asset_img Gibbs.png %}

Например, между A и B существует тонкая и сбалансированная трансформационная связь между A и C, но нет никакой связи между B и C.

Так как же Гиббс сэмплирует? Возьмите двумерную выборку в качестве примера

  1. Учитывая стационарное распределение\pi(x_1,x_2), учитывая количество переходов n;
  2. Произвольно инициализировать точкуX_0(x_1^0,x_2^0);
  3. для t = 1 до n:
    1. фиксированныйx_1, выборкаx_2,получитьx_2^{t+1} \sim \pi(x_2|x_1^t);
    2. фиксированныйx_2, выборкаx_1,получитьx_1^{t+1} \sim \pi(x_1|x_2^t);
    3. получить новую точку отбора пробX_{t+1}(x_1^{t+1}, x_2^{t+1});
  4. Вернуть собранную серию X;

Это также очень простой процесс.

Ссылаться на