Стандартное нормальное распределение
A/B-тестирование неотделимо от статистических знаний.Самым важным моментом в статистике является то, чтонормальное распределение(нормальное распределение)
Это немецкая отметка. Вы можете видеть, что посередине находится математическая диаграмма. Это нормальное распределение, изобретенное великим математиком Гауссом, поэтому его также называютГауссово распределение.
Это типичная стандартная кривая нормального распределения, ось Y представляет случайные величины, а площадь, ограниченная X и кривой, представляет собой вероятность возникновения.
Что это означает? Возьмем практический пример, когда мы проведем выборку взрослых китайских мужчин, мы обнаружим, что большинство из них сосредоточены вокруг 167 см. Чем больше людей с разницей в росте 167 см, тем меньше людей, и очень мало людей очень высоких или очень низких. Проще говоря, 167 — это центр тела и убавки с обеих сторон. Таких примеров много.Например,нормальный интервал,прописанный в выдаваемом больнице листе лабораторных исследований,является нормальным интервальным распределением,и он также основан на результате выборочного расчета.Это не означает,что он ненормальный за пределами этого диапазон, но для самой толпы, поэтому его обычно называют нормальным распределением. Таких примеров много, такие как интеллект, вес, KPI и т.д., все они доказывают центральную предельную ставку, (обычные люди все же составляют большинство).
Его формула представляет собой функцию плотности вероятности:
Z-значение — это плотность вероятности, которую мы часто используем.
Итак, для чего это нужно? Он имеет широкий спектр применения. Пока мы хотим знать все данные со случайными факторами, мы можем использовать его для получения относительно точной вероятности. Например, мы собираемся провести эксперимент со страницей, на который может повлиять толпа, пользовательский интерфейс, время, сеть и т. д., если мы выберем один из индикаторов и воспользуемся приведенной выше формулой для его расчета, вы обнаружите, что это также очень типичная кривая нормального распределения. кривая станет более плавной и гладкой. В середине оси X кривой находится среднее значение, а площадь между его левой и правой частями соответствует вероятности 68%, двум стандартным отклонениям соответствует 95%, а трем стандартным отклонениям соответствует 99,7%. Поэтому, если мы хотим узнать вероятность появления данных, мы можем использовать ее для ее расчета.
(Для интереса: если мы подсчитаем количество свингов, которые делает наш игрок в бадминтон в выигрышных играх, мы также можем получить такую кривую, чтобы мы могли примерно подсчитать, сколько свингов он выиграет.)
(Еще одна концепция доверительного интервала, которая будет упомянута позже, основана на этом правиле, чтобы ограничить 95% в качестве нашего разумного доверительного интервала. Для данных, попадающих в другие интервалы, мы считаем это ненадежным и маловероятным событием. Это будет полезно для проверка второй гипотезы, о которой мы упоминали ранее.)
Расчет также очень прост, если значение z, рассчитанное выше, можно использовать для нахождения балла выборки в процентах, просматривая таблицу. иметь онлайнинструмент, можешь попробовать.
t-распределение
Упомянутые выше кривые распределения являются стандартными нормальными распределениями (также называемыми u-распределениями), а также существует t-распределение, которое на самом деле является формой нормального распределения. Может использоваться в небольших выборках для оценки материнских данных (полные данные).
Например, разделительная линия, о которой мы часто слышим, использует эту функцию распределения вероятности, чтобы вычислить, сколько процентов людей может пересечь эту линию. Конечно, можно сказать, что лучше посчитать все баллы, а потом рассортировать проценты, это действительно метод. Но что, если объем данных, которые мы хотим измерить, очень велик, например журналы на уровне терабайт?
Поэтому, когда стандартное отклонение родительской популяции неизвестно, мы можем использовать t-распределение. Когда размер выборки n относительно мал, ее кривая имеет тенденцию быть относительно плоской, и по мере постепенного увеличения размера выборки она будет становиться все ближе и ближе к стандартному нормальному распределению.
Красная линия выше представляет собой кривую нормального распределения со средним значением -2 и дисперсией 1, а синяя линия представляет собой кривую нормального распределения со средним значением 2 и дисперсией 4. Отсюда видно, что чем меньше дисперсия, тем более «тонкое и высокое» изображение, а чем больше дисперсия, тем более «коренастый» график. (Чем меньше дисперсия, тем ближе к медиане). Небольшая дисперсия означает, что среднее значение для всех очень близко, и наоборот.
t-распределение представляет собой набор кривых, форма которых зависит от размера n (точнее, от степени свободы df). Чем меньше степень свободы df, тем ниже и пологее кривая t-распределения; чем больше степень свободы df, тем ближе кривая t-распределения к стандартной кривой нормального распределения (u-распределения).
-
Распределение t было опубликовано известным британским статистиком Госсетом, псевдоним которого «Студент», поэтому распределение также называют «распределением Стьюдента t». Публикация этого распределения знаменует собой начало статистического вывода по малой выборке.
-
Тогда какие формы жизни не являются нормально распространенными? Например, по индексу Джини бедные становятся беднее, богатые становятся еще богаче, а средний показатель очень мал. ржу не могу