Говоря о понимании данных в интеллектуальном анализе данных

сбор данных

предисловие

В предыдущей статье мы представили интеллектуальный анализ данных в целом и увидели красоту интеллектуального анализа данных, однако, будучи новичком в области данных, мы все еще далеки от интеллектуального анализа данных, и нам все еще нужно постоянно работать. Если мы сказали, что смотрели на звездное небо в прошлой статье, то мы должны склонить головы и двигаться вперед от этой статьи. Сегодня мы в основном понимаем данные. Хотя мы живем в такую ​​эпоху стремительного роста данных, действительно ли мы понимаем данные? Между нами и данными как бы прослойка завесы, мы отчетливо ощущаем ее существование, но не видим ее появления, давайте снимем эту завесу.

свойства данных

Атрибут — это поле данных, представляющее характеристику объекта данных, например пол, возраст. Люди, имеющие опыт объектно-ориентированного программирования, увидят, что первая реакция может состоять в том, что часть данных — это объект, а атрибуты данных — это атрибуты объекта.Классификация атрибутов показана на рисунке ниже.

Номинальные свойства

Номинальные атрибуты — это названия некоторых символов или вещей, и каждое значение представляет собой определенное состояние или категорию, поэтому именные атрибуты рассматриваются как категории.

Например, цвет волос — это атрибут, характеризующий человека, и его значение может быть черным, желтым, золотым и т. д. Это именные атрибуты.

бинарные атрибуты

Бинарное свойство — это специальное номинальное свойство только с двумя категориями или состояниями.

Двоичные атрибуты можно разделить на"симметрия"и"асимметричный", симметрия означает, что два состояния имеют одинаковую ценность и вес, например пол. Если статус не одинаково важен, например, отрицательный и положительный тесты на вирус ВИЧ, ВИЧ-положительный обычно встречается редко и больше заслуживает внимания, это асимметрия.

порядковое свойство

Порядковый атрибут — это атрибут, значения которого имеют значимый порядок между ними. Например, мы идем в Starbucks, чтобы сказать: средняя чашка, большая чашка и очень большая чашка.

Числовые свойства

Числовые свойства — это количественные, измеримые величины, которые могут быть представлены целыми или действительными значениями.

Числовые свойства можно разделить на"интервальная шкала"и"шкала отношений", например, наша температура представляет собой интервальную шкалу, сегодня 20 градусов, а завтра 15 градусов. Шкала отношений может сказать, что одно значение кратно другому.

Дискретные и непрерывные атрибуты

В области машинного обучения атрибуты принято делить на непрерывные и дискретные.

мера данных

О классификации атрибутов данных мы говорили выше, давайте посмотрим на метрики данных, эти метрики могут описывать некоторые свойства данных.

мера центральной тенденции

Мера центральной тенденции, которая измеряет центральное или центральное положение данных, простыми словами, куда попадает большая часть данных с заданным атрибутом. Меры центральной тенденции включают среднее значение, медиану, моду и срединное число столбцов.

значит

Понятие среднего должно было существовать с детства.Среди них есть и взвешенное среднее, то есть каждое число имеет вес, и усеченное среднее, которое заключается в удалении влияния максимального и минимального значений на получение среднего .

медиана

Медиана — это самое среднее значение после расположения или среднее значение двух значений. Сортировка обходится дорого, когда набор данных большой, есть алгоритм оценки медианы. Это разделить данные на разные интервалы и знать частоту каждого интервала, Он рассчитывается по следующей формуле, где L1 — нижняя граница интервала, содержащего медиану, freq1 — частота медианного интервала, а freq2 — ниже медианы Подсчитайте сумму частот всех интервалов, а ширина — это ширина медианного интервала.

медиана = L1 + [(N/2 + частота2)/частота1]ширина

Мода и медиана

О режимах сказать особо нечего.Один режим называется унимодальным, а несколько режимов называются мультимодальными.Количество средних столбцов представляет собой среднее значение максимального и минимального значений в данных.

Измерение распределения данных

очень бедный

Диапазон — это разница между максимальным и минимальным значениями в наборе данных.

Квартильный и межквартильный диапазон

На самом деле квартили - это три значения. Упорядочите набор данных. 25-й процентиль - это первый квартиль Q1, 50-й процентиль - второй квартиль Q2, а 75-й процентиль - третий квартиль Q3.

Например, после размещения 12 частей данных 3-я, 6-я и 9-я части данных являются Q1, Q2 и Q3 этого набора данных соответственно.

Диапазон квартилей составляет Q3 - Q1, обозначаемый как IQR.При обнаружении выбросов правило обычно должно быть выше третьего квартиля или по крайней мере в 1,5 раза меньше IQR ниже первого квартиля.значение при . Коробчатые диаграммы — это популярное отображение дистрибутивов. Структура выглядит следующим образом, что хорошо показывает разброс данных с квартилями.

Дисперсия и стандартное отклонение

Чем больше дисперсия и стандартное отклонение, тем шире разброс данных и более концентрированные данные.

Наконец

Лайки — это самая большая поддержка Для получения дополнительных статей и информации вы можете подписаться на общедоступный аккаунт WeChat QStack.