Понимание данных с помощью гистограмм и диаграмм

машинное обучение

Автор | Рашида Насрин Sucky Компилировать|ВКонтакте Источник | К науке о данных

Узнайте, как извлекать информацию из гистограмм и диаграмм

Понимание данных не означает просто получение среднего значения, медианы и стандартного отклонения. Во многих случаях важно понимать изменчивость, разброс или распространение данных. И гистограммы, и диаграммы помогают предоставить много дополнительной информации о наборе данных, что помогает понять данные.

Гистограмма

Гистограмма берет только одну переменную из набора данных и отображает частоту каждого появления. Я буду использовать простой набор данных, чтобы узнать, как гистограммы помогают понять наборы данных. Я буду использовать python, чтобы сделать картинку. Импорт набора данных:

import pandas as pd
import seaborn as sns 
import matplotlib.pyplot as plt
df = pd.read_csv("Cartwheeldata.csv")
df.head()

Этот набор данных отображает данные Cartweel. Предположим, люди в офисе решают принять участие в гонке на тележках, собираясь на пикник. Набор данных выше показывает результаты. Давайте взглянем на данные.

1. Составьте гистограмму «Возраст».

sns.distplot(df['Age'], kde =False).set_title("Histogram of age")

Как вы можете видеть на картинке выше, большинство из них моложе 30 лет. Только одному человеку 39 лет и одному человеку 54 года.

2. Посмотреть раздачу "CWDistance"

sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of CWDistance")

Очень красивая лестница. Трудно сказать, какая полоса имеет самую высокую частоту.

3. Иногда хорошо понятно, когда два распределения строятся вместе. Постройте «Высоту» и «CWDistance» на том же графике.

sns.distplot(df["Height"], kde=False)
sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of height and score")

По этой картинке нельзя сказать, что существует связь между высотой и расстоянием.

Теперь посмотрим, какую информацию мы можем извлечь из диаграммы.

коробочный сюжет

Коробчатые диаграммы показывают распределение данных и более подробную информацию. Он более четко показывает выбросы: максимум, минимум, квартиль (Q1), третий квартиль (Q3), межквартильный размах (IQR) и медиану. Вы можете рассчитать средние 50% от IQR.

Он также предоставляет информацию об асимметрии данных, закрытии данных и распределении данных.

Давайте рассмотрим несколько примеров с использованием данных Cartwheel.

1. Нарисуйте ящичковую диаграмму «Оценка».

sns.boxplot(df["Score"])

По этой картинке можно сказать,

  • распределение нормальное

  • Медиана 6

  • Минимальный балл 2

  • Высший балл 8

  • Первый квартиль (верхние 25%) равен 4.

  • Третий квартиль (75%) равен 8.

  • Средние 50% данных колеблются от 4 до 8.

  • Межквартильный размах равен 4.

2. Нанесение двух переменных на одну и ту же диаграмму помогает понять, как одна переменная влияет на другую. Нанесите CWDistance и «Очки» на один и тот же график, чтобы увидеть, влияют ли очки на CWDistance.

sns.boxplot(x = df["CWDistance"], y = df["Glasses"])

У людей без очков медиана была выше, чем у людей в очках. Люди без очков имели более низкие общие диапазоны, но более высокие значения IQR.

На приведенной выше диаграмме диапазон IQR составляет от 72 до 94. Но у людей в очках общий диапазон CWDistance больше, а IQR составляет от 66 до 90, что меньше, чем у людей без очков.

3. Для людей в очках и без них гистограмма CWDistance может дать больше понимания.

g = sns.FacetGrid(df, row = "Glasses")
g = g.map(plt.hist, "CWDistance")

Из этой картинки максимальная частота для людей в очках приходится на начало CWDistance. Влияние очков на CWDistance требует дальнейшего изучения. Может оказаться полезным установить доверительный интервал.

Я надеюсь, что эта статья дала вам дополнительную информацию о блочных диаграммах и гистограммах.

Дальнейшие рекомендации по чтению:

Оригинальная ссылка:к data science.com/understand i…

Добро пожаловать на сайт блога Panchuang AI:panchuang.net/

sklearn машинное обучение китайские официальные документы:sklearn123.com/

Добро пожаловать на станцию ​​сводки ресурсов блога Panchuang:docs.panchuang.net/