Анализ данных — тест базовых знаний

Это седьмой день моего участия в августовском испытании обновлений, подробности о мероприятии:Испытание августовского обновления

1. Знание статистики и анализа данных

Основные понятия: случайные величины, функции распределения, функции плотности вероятности.

Что такое случайная величина? Какова связь между случайными величинами и случайными испытаниями?

Рандомизированный эксперимент: в одинаковых условиях - случайное явление - большое количество повторных наблюдений
1. Три функции: 1. Невозможно определить, какие результаты будут получены до теста
1. Все возможные результаты теста могут быть четко указаны/объяснены
1. Повторяемые эксперименты в одних и тех же условиях — результаты повторных экспериментов появляются случайным образом.
Случайная переменная: описывает результат рандомизированного исследования. X означает - может быть результатом одного случайного эксперимента или комбинации результатов нескольких случайных экспериментов [сумма и среднее значение результатов]

Как отличить разные случайные величины?

Случайность генерируется на основе определенных законов — распределения случайных величин
Различать различные случайные величины на основе их распределения — зная распределение случайных величин, вы можете предсказать окончательный результат до начала эксперимента.

Что такое образец? Какая связь между выборкой и случайной величиной?

выборка — результат каждого случайного эксперимента — «наблюдения» — различается в зависимости от размера выборки — относится к различным случайным экспериментам как к случайным экспериментам с размером выборки n
случайная величина X
1. Рассматривайте все результаты как случайный эксперимент с размером выборки n, а соответствующие выборки x1, x2, x3, ... X рассматриваются как среднее значение этих выборок.
1. Каждый результат рассматривается как независимый случайный эксперимент с размером выборки 1, x1, x2, x3 — независимые выборки из одного и того же случайного эксперимента — X — среднее значение результатов этих случайных экспериментов.
Распределение случайной величины X такое же

Как классифицируются случайные величины? На чем основана классификация?
Случайные величины можно разделить на дискретные случайные величины и непрерывные случайные величины. Классификация основана на том, является ли число всех возможных исходов описанного рандомизированного исследования равнымисчисляемый

Счетный - можно ли перечислить все возможные результаты в определенном порядке.

Каковы общие дискретные случайные величины? Какие у них законы распределения?
1. Распределение Бернулли: распределение 0-1 Есть только два результата теста
2. Биномиальное распределение: n повторяющихся независимых распределений Бернулли.
  1. Каждое событие с распределением Бернулли происходит с одинаковой частотой.
  2. Результаты каждого эксперимента не зависят друг от друга и не зависят от результатов других экспериментов.
3. Распределение Пуассона: дискретное распределение вероятностей — количество случайных событий, происходящих в единицу времени [пространство].
Каковы общие непрерывные случайные величины? Какие функции плотности вероятности они имеют?
PDF — функция плотности вероятности
CDF — Кумулятивная функция распределения
1. Равномерное распределение: распределение, в котором функция плотности вероятности является фиксированным значением в пределах интервала результатов.
2. нормальное распределение
3. Экспоненциальное распределение: распределение вероятностей, описывающее время между событиями в пуассоновском процессе — процессе, в котором события происходят непрерывно и независимо с постоянной средней скоростью.

Общие характеристики случайных величин

Какие числовые характеристики используются для описания случайных величин?
1. Ожидание: E(X) - средний уровень случайной величины X
2. Дисперсия и стандартное отклонение: D(X) — описывает колебания случайной величины X — чем больше дисперсия, тем больше неопределенность результата.
3. Квантиль: порядок выборки x в общем распределении.
4. Коэффициент ковариации и корреляции: сосредоточьтесь на взаимосвязи между двумя или более случайными величинами.
Связь между ожиданиями случайных величин X+Y, XY и ожиданиями X, Y?
1. E(X + Y)=E(X)+E(Y) - X,Y без каких-либо ограничений
2. E(XY) = E(X)E(Y) - X,Yдолженявляется независимой переменной, это не означает, что x и y не зависят друг от друга
Какова связь между ожиданием распределения и размером медианы?

Ожидание соотношения распределения и размера медианы - варьируется от распределения к распределению.
1. Положительная асимметрия — медиана меньше, чем ожидалось.
1. Нормальный — медиана и ожидание равны.
1. Отрицательная асимметрия — медиана больше, чем ожидалось.

Кратко опишите разницу между независимыми и некоррелированными переменными.

Некоррелированные: нет линейной зависимости между двумя
Независимый: два не связаны друг с другом, не связаны

Каковы ожидания и отклонения от обычных распределений?

Дискретные случайные величины:

Непрерывные случайные величины:

Нормальное распределение и закон больших чисел, центральная предельная теорема

Каковы основные свойства нормального распределения?

Распределение без перекоса, график функции плотности вероятности симметричен относительно математического ожидания, а математическое ожидание равно среднему размеру.

Какая связь между методом 3σ и нормальным распределением?

68,27%, 95,45, 99,73 - интервал σ, 2σ, 3σ
Вероятность выхода выборки за пределы 3σ составляет всего 0,27 % — грубая ошибка — эта часть данных исключается.

Закон больших чисел. Повторите случайный эксперимент, соответствующий случайной величине X, много раз — по мере увеличения количества экспериментов среднее значение X будет приближаться к E (X).