Что такое статистические показатели?

анализ данных

Это 28-й день моего участия в августовском испытании обновлений. Узнайте подробности события:Испытание августовского обновления

Что такое статистические показатели

Понятия и величины, характеризующие численность населения

Статистические показатели различаются в зависимости от цели анализа данных

При анализе данных о найме: навыки, зарплата, стаж

Анализируйте коэффициенты конверсии пользователей: просмотры сайта, целевые страницы, показатели отказов.

При анализе финансовых продуктов: прошлые результаты, фактор риска, доходность в годовом исчислении.

Статистические показатели по своему содержанию делятся на две категории: суммарные показатели, относительные показатели.

Совокупный показатель

Показатели, описывающие общий размер, уровень или объем работы при определенных условиях.

ВВП, общий объем продаж, общая численность населения

Относительный показатель

Описывает относительные отношения, а не общую ситуацию

относится к соотношению, полученному путем сравнения числовых значений двух связанных явлений

Пропорция: каждое соотношение данных/всего %

Соотношения: Думайте о данных: Элементы данных

Мультипликаторы: выделить рост, скорость роста

Темпы роста по месяцам (краткосрочные): (текущий период - предыдущий период) / предыдущий период * 100 %

Годовой темп роста (долгосрочный): (номер текущего периода - номер того же периода) / номер того же периода * 100 %

Примечание. Сеть уделяет больше внимания краткосрочному повышению производительности, а в годовом исчислении больше внимания уделяет долгосрочному повышению производительности.

В дополнение к двум вышеупомянутым категориям, есть еще три статистических индикатора, заслуживающих изучения, а именно центральные индикаторы тренда, дискретные индикаторы тренда и шаблоны распределения.

Статистические показатели: Индикатор центральной тенденции - средний показатель

Средняя стоимость

Использование числа для отображения общего общего уровня — это индикатор среднего значения, также называемый индикатором центральной тенденции.Наиболее часто используемым индикатором центральной тенденции является среднее значение.

Среднее = сумма всех данных / количество данных

При обычной обработке данных часто появляются аномальные данные. Например, если данные очень большие или маленькие, это повлияет на среднее значение. Среднее значение, полученное таким образом, в определенной степени вводит в заблуждение. Среднее значение не чувствительно к ненормальные числа.

Средняя месячная зарплата Ма Да и меня составляет более 100 миллионов...

Именно из-за этой ситуации есть еще один показатель - медиана, в которой нужно разбираться

медиана

Медиана — это число, которое окажется в середине после упорядочивания.

Данные нечетные: число в позиции (n+1)/2 является медианой.

Данные четные: добавьте две средние цифры / 2 — это медиана

Такие данные более репрезентативны

Режим

Мода относится к значению с наибольшим количеством вхождений, что отражает локальные особенности и плотность.

Статистические индикаторы: дискретные индикаторы тренда

После разговора о центральном индикаторе тренда давайте разберемся, что такое дискретный индикатор тренда.

Индикатор дискретного тренда — это индикатор, отражающий степень внутренней разницы.Есть три основные категории: диапазон, среднее значение и стандартное отклонение.

очень бедный

Крайняя разница отражает наибольшую разницу в данных.

Диапазон = Макс. - Мин.

Однако крайняя разница не может отражать реальную разницу данных в данных, и мы используем среднюю разницу, чтобы отразить реальную разницу в данных.

средняя разница

Средняя разница отражает среднюю разницу между набором данных и средней разницей

средняя разница = |сумма каждого элемента данных - среднее|/количество элементов данных

Чем больше разрыв между элементом данных и средним значением, тем больше разбросаны данные, и наоборот, тем больше концентрация.

Однако здесь следует отметить, что когда в наборе данных есть выбросы данных, легко вызвать ошибки, поэтому в этом случае имеется стандартное отклонение, которое более чувствительно к дискретным значениям.

среднеквадратичное отклонение

Стандартное отклонение является лучшим показателем степени дисперсии, чем среднее отклонение.

Стандартное отклонение = ((|каждый элемент данных - среднее|) сумма квадратов / количество элементов данных) квадратный корень

Используя стандартное отклонение, можно более интуитивно понять степень разницы, которая является нашим наиболее часто используемым дискретным индикатором.

Статистические показатели: структура распределения

Модель распределения относится к модели, представленной на графике.

Общие формы: левостороннее распределение, правостороннее распределение, нормальное распределение.

Распределение с перекосом влево: среднее значение смещено влево, а мода (также известная как пик) смещена вправо.

Распределение с перекосом вправо: среднее значение смещено вправо, а мода (также известная как пик) смещена влево.

Нормальное распределение: среднее по центру, мода (также известная как пик) по центру

Выбросы

При представлении различных индикаторов выше мы всегда упоминали концепцию, которая повлияет на наше суждение, то есть выбросы.Так как же идентифицировать выбросы?

Выбросы обычно относятся к значениям с очень большим или очень небольшим отклонением от среднего значения, также называемым выбросами.

Выше также упоминалось, что обычно это означает, что этот стандарт суждения зависит от конкретного анализа бизнес-объекта.

Например, циклические отрасли, такие как индустрия туризма, имеют низкий и высокий сезоны.Данные в пиковый сезон обычно могут более чем в два раза превышать данные в низкий сезон, и такие данные нельзя рассматривать как выбросы.

Определите выбросы

Общие бизнес-данные могут идентифицировать выбросы, наблюдая разрыв между выбросами и общими данными.

Обычно метод, который мы используем, заключается в вычислении кратного среднего.Вычисленное кратное выброса и среднего обычно намного больше (меньше), чем вычисленное кратное других данных и среднего, так что элементы данных могут быть легко выявлено, является выбросом.

Что касается того, как бороться с выбросами, это обычно зависит от конкретного бизнес-анализа.

Определение выброса

1. Для ненормального значения неправильной записи вы можете напрямую изменить его на нормальные данные.Например, если данные о заработной плате ошибочно записаны как отрицательное число, мы можем изменить его напрямую.

2. Для ошибочно добавленных выбросов просто удалите их напрямую.Например, во время предварительной обработки данные о возрасте смешиваются с данными о зарплате, и мы можем удалить их напрямую.

3. Для правильных и реальных выбросов это необходимо проанализировать в соответствии с конкретным бизнесом, и необходимо решить, отражают ли выбросы особые события.

Например, на графике тренда фондового рынка наблюдается большое колебание тренда фонда, вызванное дивидендами, и если мы хотим проанализировать рыночный тренд фонда, то мы не можем иметь дело с этим аномальным значением. Если мы анализируем данные для количественной оценки торговли, нам нужно изменить и скорректировать этот выброс.

Кроме того, для периодических данных, таких как упомянутые выше данные о туризме, мы не обрабатываем такие данные.

Обработка выбросов

1. Для неверных данных мы можем заполнить нулевые значения, заполнить выборочное среднее

2. Для правильных и реальных данных мы можем настроить значение * соотношение, которое будет скорректировано в соответствии с реальной ситуацией.

Например, в приведенном ранее примере, когда фонд упал на 8% за день из-за дивидендов, для таких данных мы можем подогнать последующую цену к цене закрытия * (1 + 0,08)