Автор | Рашида Насрин Sucky Компилировать|ВКонтакте Источник | К науке о данных
Узнайте, как извлекать информацию из гистограмм и диаграмм
Понимание данных не означает просто получение среднего значения, медианы и стандартного отклонения. Во многих случаях важно понимать изменчивость, разброс или распространение данных. И гистограммы, и диаграммы помогают предоставить много дополнительной информации о наборе данных, что помогает понять данные.
Гистограмма
Гистограмма берет только одну переменную из набора данных и отображает частоту каждого появления. Я буду использовать простой набор данных, чтобы узнать, как гистограммы помогают понять наборы данных. Я буду использовать python, чтобы сделать картинку. Импорт набора данных:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("Cartwheeldata.csv")
df.head()
Этот набор данных отображает данные Cartweel. Предположим, люди в офисе решают принять участие в гонке на тележках, собираясь на пикник. Набор данных выше показывает результаты. Давайте взглянем на данные.
1. Составьте гистограмму «Возраст».
sns.distplot(df['Age'], kde =False).set_title("Histogram of age")
Как вы можете видеть на картинке выше, большинство из них моложе 30 лет. Только одному человеку 39 лет и одному человеку 54 года.
2. Посмотреть раздачу "CWDistance"
sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of CWDistance")
Очень красивая лестница. Трудно сказать, какая полоса имеет самую высокую частоту.
3. Иногда хорошо понятно, когда два распределения строятся вместе. Постройте «Высоту» и «CWDistance» на том же графике.
sns.distplot(df["Height"], kde=False)
sns.distplot(df["CWDistance"], kde=False).set_title("Histogram of height and score")
По этой картинке нельзя сказать, что существует связь между высотой и расстоянием.
Теперь посмотрим, какую информацию мы можем извлечь из диаграммы.
коробочный сюжет
Коробчатые диаграммы показывают распределение данных и более подробную информацию. Он более четко показывает выбросы: максимум, минимум, квартиль (Q1), третий квартиль (Q3), межквартильный размах (IQR) и медиану. Вы можете рассчитать средние 50% от IQR.
Он также предоставляет информацию об асимметрии данных, закрытии данных и распределении данных.
Давайте рассмотрим несколько примеров с использованием данных Cartwheel.
1. Нарисуйте ящичковую диаграмму «Оценка».
sns.boxplot(df["Score"])
По этой картинке можно сказать,
-
распределение нормальное
-
Медиана 6
-
Минимальный балл 2
-
Высший балл 8
-
Первый квартиль (верхние 25%) равен 4.
-
Третий квартиль (75%) равен 8.
-
Средние 50% данных колеблются от 4 до 8.
-
Межквартильный размах равен 4.
2. Нанесение двух переменных на одну и ту же диаграмму помогает понять, как одна переменная влияет на другую. Нанесите CWDistance и «Очки» на один и тот же график, чтобы увидеть, влияют ли очки на CWDistance.
sns.boxplot(x = df["CWDistance"], y = df["Glasses"])
У людей без очков медиана была выше, чем у людей в очках. Люди без очков имели более низкие общие диапазоны, но более высокие значения IQR.
На приведенной выше диаграмме диапазон IQR составляет от 72 до 94. Но у людей в очках общий диапазон CWDistance больше, а IQR составляет от 66 до 90, что меньше, чем у людей без очков.
3. Для людей в очках и без них гистограмма CWDistance может дать больше понимания.
g = sns.FacetGrid(df, row = "Glasses")
g = g.map(plt.hist, "CWDistance")
Из этой картинки максимальная частота для людей в очках приходится на начало CWDistance. Влияние очков на CWDistance требует дальнейшего изучения. Может оказаться полезным установить доверительный интервал.
Я надеюсь, что эта статья дала вам дополнительную информацию о блочных диаграммах и гистограммах.
Дальнейшие рекомендации по чтению:
-
Доверительные интервалы, расчеты и особенности:к data science.com/confidence-…
-
Доверительные интервалы для долей населения и расчет различий долей населения:к data science.com/confidence-…
-
Расчет доверительного интервала для среднего и среднего значения:к data science.com/how-to-calc…
Оригинальная ссылка:к data science.com/understand i…
Добро пожаловать на сайт блога Panchuang AI:panchuang.net/
sklearn машинное обучение китайские официальные документы:sklearn123.com/
Добро пожаловать на станцию сводки ресурсов блога Panchuang:docs.panchuang.net/