Анализ данных — тест базовых знаний

анализ данных

Это седьмой день моего участия в августовском испытании обновлений, подробности о мероприятии:Испытание августовского обновления

1. Знание статистики и анализа данных

Основные понятия: случайные величины, функции распределения, функции плотности вероятности.

  1. Что такое случайная величина? Какова связь между случайными величинами и случайными испытаниями?

Рандомизированный эксперимент: в одинаковых условиях - случайное явление - большое количество повторных наблюдений
1. Три функции: 1. Невозможно определить, какие результаты будут получены до теста
1. Все возможные результаты теста могут быть четко указаны/объяснены
1. Повторяемые эксперименты в одних и тех же условиях — результаты повторных экспериментов появляются случайным образом.
Случайная переменная: описывает результат рандомизированного исследования. X означает - может быть результатом одного случайного эксперимента или комбинации результатов нескольких случайных экспериментов [сумма и среднее значение результатов]

  1. Как отличить разные случайные величины?

Случайность генерируется на основе определенных законов — распределения случайных величин
Различать различные случайные величины на основе их распределения — зная распределение случайных величин, вы можете предсказать окончательный результат до начала эксперимента.

  1. Что такое образец? Какая связь между выборкой и случайной величиной?

выборка — результат каждого случайного эксперимента — «наблюдения» — различается в зависимости от размера выборки — относится к различным случайным экспериментам как к случайным экспериментам с размером выборки n
случайная величина X
1. Рассматривайте все результаты как случайный эксперимент с размером выборки n, а соответствующие выборки x1, x2, x3, ... X рассматриваются как среднее значение этих выборок.
1. Каждый результат рассматривается как независимый случайный эксперимент с размером выборки 1, x1, x2, x3 — независимые выборки из одного и того же случайного эксперимента — X — среднее значение результатов этих случайных экспериментов.
Распределение случайной величины X такое же

  1. Как классифицируются случайные величины? На чем основана классификация?
    Случайные величины можно разделить на дискретные случайные величины и непрерывные случайные величины. Классификация основана на том, является ли число всех возможных исходов описанного рандомизированного исследования равнымисчисляемый

Счетный - можно ли перечислить все возможные результаты в определенном порядке.

  1. Каковы общие дискретные случайные величины? Какие у них законы распределения?
    1. Распределение Бернулли: распределение 0-1 Есть только два результата теста
    2. Биномиальное распределение: n повторяющихся независимых распределений Бернулли.
      1. Каждое событие с распределением Бернулли происходит с одинаковой частотой.
      2. Результаты каждого эксперимента не зависят друг от друга и не зависят от результатов других экспериментов.
    3. Распределение Пуассона: дискретное распределение вероятностей — количество случайных событий, происходящих в единицу времени [пространство].
  2. Каковы общие непрерывные случайные величины? Какие функции плотности вероятности они имеют?
    PDF — функция плотности вероятности
    CDF — Кумулятивная функция распределения
    1. Равномерное распределение: распределение, в котором функция плотности вероятности является фиксированным значением в пределах интервала результатов.
    2. нормальное распределение
    3. Экспоненциальное распределение: распределение вероятностей, описывающее время между событиями в пуассоновском процессе — процессе, в котором события происходят непрерывно и независимо с постоянной средней скоростью.

Общие характеристики случайных величин

  1. Какие числовые характеристики используются для описания случайных величин?
    1. Ожидание: E(X) - средний уровень случайной величины X
    2. Дисперсия и стандартное отклонение: D(X) — описывает колебания случайной величины X — чем больше дисперсия, тем больше неопределенность результата.
    3. Квантиль: порядок выборки x в общем распределении.
    4. Коэффициент ковариации и корреляции: сосредоточьтесь на взаимосвязи между двумя или более случайными величинами.
  2. Связь между ожиданиями случайных величин X+Y, XY и ожиданиями X, Y?
    1. E(X + Y)=E(X)+E(Y) - X,Y без каких-либо ограничений
    2. E(XY) = E(X)E(Y) - X,Yдолженявляется независимой переменной, это не означает, что x и y не зависят друг от друга
  3. Какова связь между ожиданием распределения и размером медианы?

Ожидание соотношения распределения и размера медианы - варьируется от распределения к распределению.
1. Положительная асимметрия — медиана меньше, чем ожидалось.
1. Нормальный — медиана и ожидание равны.
1. Отрицательная асимметрия — медиана больше, чем ожидалось.

  1. Кратко опишите разницу между независимыми и некоррелированными переменными.

Некоррелированные: нет линейной зависимости между двумя
Независимый: два не связаны друг с другом, не связаны

  1. Каковы ожидания и отклонения от обычных распределений?

Дискретные случайные величины:

image.pngНепрерывные случайные величины:

image.png

Нормальное распределение и закон больших чисел, центральная предельная теорема

  1. Каковы основные свойства нормального распределения?

Распределение без перекоса, график функции плотности вероятности симметричен относительно математического ожидания, а математическое ожидание равно среднему размеру.

  1. Какая связь между методом 3σ и нормальным распределением?

68,27%, 95,45, 99,73 - интервал σ, 2σ, 3σ
Вероятность выхода выборки за пределы 3σ составляет всего 0,27 % — грубая ошибка — эта часть данных исключается.

  1. Закон больших чисел. Повторите случайный эксперимент, соответствующий случайной величине X, много раз — по мере увеличения количества экспериментов среднее значение X будет приближаться к E (X).