Статистика для науки о данных: что такое асимметрия?

Автор|АБХИШЕК ШАРМА Компилировать|ВКонтакте Источник | Аналитика Видья

Обзор

Асимметрия — важное статистическое понятие в науке о данных и аналитике.
Узнайте, что такое асимметрия и почему она важна для вас как специалиста по обработке и анализу данных.

вводить

Концепция асимметрии встроена в наш образ мышления. Когда мы видим изображение, наш мозг интуитивно различает закономерности на графике.

Как вы, возможно, уже знаете, более 50% населения Индии моложе 25 лет, а более 65% населения моложе 35 лет.

Если вы начертите возрастное распределение населения Индии, вы увидите выпуклость в левой части распределения, в то время как правая сторона относительно плоская. Другими словами, мы можем сказать, что есть асимметрия к концам.

Таким образом, даже если вы не читали об асимметрии для специалистов по науке о данных или аналитике, вы определенно взаимодействовали с этой концепцией неформально.

В статистике это на самом деле довольно простая тема, однако многие люди просматривают эту концепцию в спешке, чтобы изучить другие, казалось бы, сложные концепции науки о данных. Для меня это баг.

Асимметрия — это фундаментальное статистическое понятие, которое необходимо знать всем, кто занимается наукой о данных и аналитикой. Это то, от чего мы не можем убежать. Я уверен, что вы поймете это к концу этого поста.

Здесь мы обсудим понятие тильта в его простейшей форме. Вы узнаете об асимметрии, ее типах и ее важности в области науки о данных.

Итак, пристегните ремни безопасности, потому что вы изучите концепцию, которая будет цениться на протяжении всей вашей карьеры в науке о данных.

содержание

Что такое асимметрия?
Почему асимметрия важна?
Что такое нормальное распределение?
Понимание положительно асимметричных распределений
Понимание распределений с отрицательным перекосом

Что такое асимметрия?

Асимметрия — это мера асимметрии идеально симметричного распределения вероятностей, определяемая стандартным моментом третьего порядка. Если это звучит слишком сложно, не волнуйтесь! Позвольте мне объяснить вам.

Проще говоря, асимметрия — это мера того, насколько распределение вероятностей случайной величины отклоняется от нормального распределения. Теперь вы можете подумать, почему я говорю здесь о нормальном распределении?

Нормальное распределение — это распределение вероятностей без какой-либо асимметрии. Вы можете взглянуть на изображение ниже, оно показывает симметричное распределение, в основном нормальное распределение, и вы можете видеть, что пунктирная линия симметрична с обеих сторон. Помимо этого, существует два вида асимметрии:

положительная асимметрия
отрицательная асимметрия

Распределение вероятностей с хвостами справа имеет положительную асимметрию, а распределение вероятностей с хвостами слева имеет отрицательную асимметрию. Если цифры выше вас сбивают с толку, ничего страшного. Мы рассмотрим это более подробно позже.

Перед этим давайте разберемся, почему асимметрия является таким важным понятием для вас как специалиста по науке о данных.

Почему асимметрия имеет значение

Теперь мы знаем, что асимметрия — это мера асимметрии, и ее тип определяется тем, на какой стороне хвоста распределения вероятностей находится хвост. Но почему важно знать асимметрию данных?

Во-первых, линейные модели предполагают, что независимые и целевые переменные имеют одинаковое распределение. Следовательно, знание асимметрии данных помогает нам создавать лучшие линейные модели.

Во-вторых, давайте посмотрим на распределение ниже. Это распределение мощности автомобиля:

Вы можете ясно видеть, что приведенное выше распределение имеет положительную асимметрию. Теперь предположим, что вы хотите сделать это функцией модели, предсказывающей расход автомобиля на галлон (мили на галлон).

Поскольку наши данные здесь имеют положительную асимметрию, это означает, что в них больше точек данных с низким значением, то есть автомобилей с меньшей мощностью.

Поэтому, когда мы обучаем нашу модель на этих данных, она будет лучше прогнозировать расход автомобилей с низкой мощностью, чем автомобилей с высокой мощностью.

Кроме того, асимметрия указывает нам направление выбросов. Вы можете видеть, что наше распределение имеет положительную асимметрию, и большинство выбросов появляются в правой части распределения.

Примечание. Асимметрия не говорит нам о количестве выбросов. Он только указывает нам направление.

Теперь, когда мы знаем, почему важна асимметрия, давайте взглянем на распределение, которое я показал вам ранее.

Что такое симметричное/нормальное распределение

Да, мы снова вернулись к нормальному распределению.

Нормальное распределение используется в качестве эталона для определения асимметрии распределения. Как я упоминал ранее, идеальное нормальное распределение — это распределение вероятностей практически без асимметрии. Он почти идеально симметричен. Следовательно, значение асимметрии нормального распределения равно нулю.

Но почему он почти идеально симметричен, а не абсолютно симметричен?

Это потому, что на самом деле ни одно из реальных данных не имеет совершенно нормального распределения. Следовательно, значение асимметрии не совсем равно нулю, оно почти равно нулю. В то время как нулевое значение используется в качестве эталона для определения асимметрии распределения.

Вы можете видеть на изображении выше, что одна и та же линия представляет среднее значение, медиану и моду. Это связано с тем, что среднее значение, медиана и мода совершенно нормального распределения равны.

До сих пор мы использовали распределения вероятности или частоты, чтобы понять асимметрию нормального распределения. Теперь давайте разберемся с коробочными диаграммами, так как это наиболее распространенный способ рассмотрения распределений в области науки о данных.

На рисунке выше показана диаграмма симметричного распределения. Вы заметите, что расстояния между Q1 и Q2 равны, т.е.:

Но этого недостаточно, чтобы сделать вывод о том, является ли распределение асимметричным. Также смотрим на длину линий, если они равны, то можно сказать, что распределение симметрично, то есть не перекошено.

Теперь, когда мы обсудили асимметрию в нормальном распределении, пришло время понять два типа асимметрии, которые мы обсуждали ранее. Начнем с положительной асимметрии.

Понимание положительно асимметричных распределений

Распределение с положительной асимметрией — это распределение с хвостами справа. Распределение с положительной асимметрией имеет значение асимметрии больше нуля. Вы, возможно, узнали, глядя на это число, что среднее значение является наибольшим, затем медиана, затем мода.

Почему это происходит?

Что ж, ответ заключается в том, что хвост распределения находится справа; это приводит к тому, что среднее значение больше, чем медиана, и в конечном итоге среднее смещается вправо. Также мода возникает на самой высокой частоте распределения, т.е. левее медианы. следовательно,Режим .

На блок-схеме выше видно, что Q2 близок к Q1. Это представляет собой положительно асимметричное распределение. По квартилю его можно вывести по следующей формуле:

В этом случае легко определить, искажены ли данные. Но что, если бы у нас был такой график:

Здесь Q2-Q1 и Q3-Q2 равны, но распределения имеют положительную асимметрию. Самые зоркие среди вас заметят, что длина правой линии больше, чем длина левой линии. Из этого можно сделать вывод, что данные имеют положительную асимметрию.

Итак, первый шаг всегда проверяет равенство Q2-Q1 и Q3-Q2. Если это равно, то ищем длину линии.

Понимание распределений с отрицательным перекосом

Как вы могли догадаться, распределение с отрицательной асимметрией — это распределение с хвостами слева. Распределение с отрицательной асимметрией имеет значение асимметрии меньше нуля. Вы также можете увидеть на картинке вышесреднее .

На ящичковой диаграмме отношение между квартилями отрицательной асимметрии определяется следующим образом:

Аналогично тому, что мы делали раньше, если Q3-Q2 и Q2-Q1 равны, то ищем длину линии. Если длина левой линии больше длины правой, то можно сказать, что данные имеют отрицательную асимметрию.

Как мы преобразуем искаженные данные

Теперь, когда вы знаете, насколько искаженные данные могут повлиять на прогностическую способность модели машинного обучения, лучше всего преобразовать искаженные данные в нормально распределенные данные. Вот несколько способов преобразования искаженных данных:

силовое преобразование
преобразование журнала
Экспоненциальное преобразование

Примечание: выбор преобразования зависит от статистических свойств данных.

конец

В этой статье мы обсудили понятие асимметрии, ее виды и важность в области науки о данных. Мы обсудили асимметрию на концептуальном уровне, но если вы хотите копнуть глубже, вы можете изучить ее математическую часть далее.

Оригинальная ссылка:Woohoo.Со слов аналитиков vi.com/blog/2020/0…

Добро пожаловать на сайт блога Panchuang AI:panchuang.net/

sklearn машинное обучение китайские официальные документы:sklearn123.com/

Добро пожаловать на станцию сводки ресурсов блога Panchuang:docs.panchuang.net/