предисловие
В предыдущей статье мы представили интеллектуальный анализ данных в целом и увидели красоту интеллектуального анализа данных, однако, будучи новичком в области данных, мы все еще далеки от интеллектуального анализа данных, и нам все еще нужно постоянно работать. Если мы сказали, что смотрели на звездное небо в прошлой статье, то мы должны склонить головы и двигаться вперед от этой статьи. Сегодня мы в основном понимаем данные. Хотя мы живем в такую эпоху стремительного роста данных, действительно ли мы понимаем данные? Между нами и данными как бы прослойка завесы, мы отчетливо ощущаем ее существование, но не видим ее появления, давайте снимем эту завесу.
свойства данных
❝Атрибут — это поле данных, представляющее характеристику объекта данных, например пол, возраст. Люди, имеющие опыт объектно-ориентированного программирования, увидят, что первая реакция может состоять в том, что часть данных — это объект, а атрибуты данных — это атрибуты объекта.Классификация атрибутов показана на рисунке ниже.
❞
Номинальные свойства
❝Номинальные атрибуты — это названия некоторых символов или вещей, и каждое значение представляет собой определенное состояние или категорию, поэтому именные атрибуты рассматриваются как категории.
❞
Например, цвет волос — это атрибут, характеризующий человека, и его значение может быть черным, желтым, золотым и т. д. Это именные атрибуты.
бинарные атрибуты
❝Бинарное свойство — это специальное номинальное свойство только с двумя категориями или состояниями.
❞
Двоичные атрибуты можно разделить на"симметрия"и"асимметричный", симметрия означает, что два состояния имеют одинаковую ценность и вес, например пол. Если статус не одинаково важен, например, отрицательный и положительный тесты на вирус ВИЧ, ВИЧ-положительный обычно встречается редко и больше заслуживает внимания, это асимметрия.
порядковое свойство
❝Порядковый атрибут — это атрибут, значения которого имеют значимый порядок между ними. Например, мы идем в Starbucks, чтобы сказать: средняя чашка, большая чашка и очень большая чашка.
❞
Числовые свойства
❝Числовые свойства — это количественные, измеримые величины, которые могут быть представлены целыми или действительными значениями.
❞
Числовые свойства можно разделить на"интервальная шкала"и"шкала отношений", например, наша температура представляет собой интервальную шкалу, сегодня 20 градусов, а завтра 15 градусов. Шкала отношений может сказать, что одно значение кратно другому.
Дискретные и непрерывные атрибуты
❝В области машинного обучения атрибуты принято делить на непрерывные и дискретные.
❞
мера данных
О классификации атрибутов данных мы говорили выше, давайте посмотрим на метрики данных, эти метрики могут описывать некоторые свойства данных.
мера центральной тенденции
❝Мера центральной тенденции, которая измеряет центральное или центральное положение данных, простыми словами, куда попадает большая часть данных с заданным атрибутом. Меры центральной тенденции включают среднее значение, медиану, моду и срединное число столбцов.
❞
значит
❝Понятие среднего должно было существовать с детства.Среди них есть и взвешенное среднее, то есть каждое число имеет вес, и усеченное среднее, которое заключается в удалении влияния максимального и минимального значений на получение среднего .
❞
медиана
❝Медиана — это самое среднее значение после расположения или среднее значение двух значений. Сортировка обходится дорого, когда набор данных большой, есть алгоритм оценки медианы. Это разделить данные на разные интервалы и знать частоту каждого интервала, Он рассчитывается по следующей формуле, где L1 — нижняя граница интервала, содержащего медиану, freq1 — частота медианного интервала, а freq2 — ниже медианы Подсчитайте сумму частот всех интервалов, а ширина — это ширина медианного интервала.
❞
медиана = L1 + [(N/2 + частота2)/частота1]ширина
Мода и медиана
❝О режимах сказать особо нечего.Один режим называется унимодальным, а несколько режимов называются мультимодальными.Количество средних столбцов представляет собой среднее значение максимального и минимального значений в данных.
❞
Измерение распределения данных
очень бедный
❝Диапазон — это разница между максимальным и минимальным значениями в наборе данных.
❞
Квартильный и межквартильный диапазон
❝На самом деле квартили - это три значения. Упорядочите набор данных. 25-й процентиль - это первый квартиль Q1, 50-й процентиль - второй квартиль Q2, а 75-й процентиль - третий квартиль Q3.
❞
Например, после размещения 12 частей данных 3-я, 6-я и 9-я части данных являются Q1, Q2 и Q3 этого набора данных соответственно.
❝Диапазон квартилей составляет Q3 - Q1, обозначаемый как IQR.При обнаружении выбросов правило обычно должно быть выше третьего квартиля или по крайней мере в 1,5 раза меньше IQR ниже первого квартиля.значение при . Коробчатые диаграммы — это популярное отображение дистрибутивов. Структура выглядит следующим образом, что хорошо показывает разброс данных с квартилями.
❞
Дисперсия и стандартное отклонение
❝Чем больше дисперсия и стандартное отклонение, тем шире разброс данных и более концентрированные данные.
❞
Наконец
Лайки — это самая большая поддержка Для получения дополнительных статей и информации вы можете подписаться на общедоступный аккаунт WeChat QStack.