- «Практика машинного обучения — исследование данных (1. Идентификация переменных; 2. Одномерный анализ; 3. Двумерный анализ)»
- Практика машинного обучения — исследование данных (обработка пропущенных значений)
В двух вышеприведенных статьях представлены первые четыре шага исследования данных.Чтобы узнать больше о машинном обучении, вы можете следить за проектом github:machine learning
Часто мы склонны игнорировать выбросы при построении модели, что не является разумной практикой. Выбросы искажают данные и снижают точность. Давайте узнаем больше об обработке исключений здесь.
Какое значение является выбросом?
Выброс — это термин, обычно используемый аналитиками и специалистами по данным, потому что он требует пристального внимания или может привести к ошибочным оценкам. Проще говоря, выброс — это наблюдение, выходящее далеко за рамки общей закономерности в выборке.
В качестве примера давайте проведем анализ клиентов и обнаружим, что средний годовой доход наших клиентов составляет 800 000 долларов. Однако есть два клиента с годовым доходом в 4 и 4,2 миллиона долларов. Годовой доход этих двух клиентов значительно отличается от годового дохода других, поэтому эти два наблюдения можно считать выбросами.
Каковы типы выбросов?
Выбросы бывают двух типов: одномерные и многомерные. Выше мы обсуждали пример одномерных выбросов. Эти выбросы можно обнаружить, если мы посмотрим на одномерное распределение. Многомерный выброс — это выброс в n-мерном пространстве, который должен пройти через многомерное распределение.
Давайте разберемся в этом на примере. Например, связь между ростом и весом, у нас есть одномерное и двумерное распределения для «роста» и «веса». Глядя на блочную диаграмму, нет никаких выбросов (выше и ниже 1,5 * IQR, наиболее распространенный метод). Теперь, глядя на точечную диаграмму, мы видим два значения ниже среднего для определенного веса и роста.
Что может вызвать выбросы?
Всякий раз, когда мы сталкиваемся с выбросами, идеальный способ справиться с ними — выяснить, что их вызвало. Способ борьбы с ними будет зависеть от того, почему они возникают, а причины выбросов можно разделить на две широкие категории:
- человеческая ошибка
- естественная ошибка
ошибка ввода данных
Человеческие ошибки, например, при сборе, записи или вводе данных, могут привести к выбросам в данных. Пример. Годовой доход клиента составляет 100 000 долларов США, но к операции ввода данных неожиданно добавляется ноль. Доход теперь составляет 1 миллион долларов, 10x. Очевидно, что это будет аутсайдером по сравнению с другими.
Погрешность измерения
Это наиболее распространенный источник выбросов. Это происходит, когда используемый измерительный прибор неисправен. Пример: Есть 10 весов. 9 из них правильные и 1 неправильный. Человек на неисправной машине будет иметь больший или меньший измеренный вес, чем остальная часть группы. Вес, измеренный на неисправной машине, может привести к выбросам.
Экспериментальная ошибка
Другой причиной выбросов является экспериментальная ошибка. Пример: в спринте на 100 метров с участием семи бегунов один бегун пропустил команду «бег», что привело к его задержке. Таким образом, это заставляет бегуна бежать больше времени, чем другие бегуны, и общее время бега может быть выбросом.
преднамеренные выбросы
Конфиденциальные данные часто используются в самоотчетных мерах. Например: обычно подростки сообщают об алкоголе, и только небольшой процент из них сообщает фактическое значение, фактическое значение здесь может выглядеть как выброс, потому что остальные подростки дают ложные значения.
ошибка обработки данных
Всякий раз, когда выполняется интеллектуальный анализ данных, мы извлекаем данные из нескольких источников. Определенные ошибки манипуляции или извлечения могут привести к выбросам в наборе данных.
ошибка выборки
Например, при измерении роста спортсмена в выборку были неправильно включены несколько баскетболистов. Это включение может привести к выбросам в наборе данных.
естественные выбросы
Когда выброс не является искусственным (из-за ошибки), он является естественным выбросом. Пример: заметил, что в одной из известных страховых компаний 50 лучших финансовых консультантов превзошли остальных. Удивительно, но это не из-за какой-то ошибки. Поэтому всякий раз, когда мы выполняем какие-либо действия по сбору данных с консультантами, мы рассматриваем этот сегмент отдельно.
Какое влияние выбросы оказывают на набор данных?
Выбросы могут кардинально изменить результаты анализа данных и статистического моделирования. Выбросы в наборе данных имеют много побочных эффектов:
- Добавлена дисперсия ошибок и снижена мощность статистических тестов.
- Нормальность может быть снижена, если выбросы распределены неслучайно
- может повлиять на существенные оценки
- Основные допущения, которые могут повлиять на допущения статистических моделей, таких как регрессия, дисперсионный анализ и т. д.
Чтобы получить представление, давайте возьмем пример, чтобы изучить, что происходит с набором данных с выбросами и без них в наборе данных.
Как видно из графика, наборы данных с выбросами имеют разное среднее значение и стандартное отклонение.
Как обнаружить выбросы?
Наиболее распространенным методом обнаружения выбросов является визуализация. Используя различные методы визуализации, такие как блочная диаграмма, гистограмма, точечная диаграмма (выше мы использовали блочную диаграмму и точечную диаграмму для визуализации), некоторые аналитики также используют различные правила для обнаружения выбросов. Некоторые из них:
- Любое значение за пределами диапазона от -1,5 x IQR до 1,5 x IQR
- Используйте метод укупорки. Любое значение за пределами 5% или 95% можно считать выбросом.
- Три или более стандартных отклонения от среднего значения считаются выбросами.
- Обнаружение выбросов — это всего лишь частный случай проверки данных на наличие важных точек данных, который также зависит от понимания бизнеса.
- Двумерные и многомерные выбросы часто измеряются с помощью влияния, рычага или расстояния. Например, расстояние Махаланобиса и D Кука часто используются для обнаружения выбросов.
Как обрабатывать выбросы?
Большинство методов обработки выбросов аналогичны методам обработки пропущенных значений, удалению наблюдений, преобразованию, группировке, условному исчислению или другим статистическим методам. Здесь мы обсудим общие методы обработки выбросов:
удалить наблюдение
Если наблюдений за выбросами из-за ошибок ввода данных очень мало, выбросы можно удалить или обрезать с обоих концов, чтобы удалить выбросы.
Преобразование объединенных значений
Преобразование переменных также может устранить выбросы, натуральные логарифмы могут уменьшить изменения, вызванные экстремальными значениями, объединение переменных также является формой преобразования переменных, а алгоритмы дерева решений позволяют объединять переменные для хорошей обработки выбросов, а также могут использовать присвоение весов различным наблюдениям. .
оценить
Точно так же, как вменение пропущенных значений, выбросы также могут быть вменены. Можно использовать методы оценки среднего, медианы, моды. Прежде чем оценивать, следует сначала проанализировать, является ли это естественным выбросом или искусственным. еслиискусственныйДа, это можно оценить с помощью оценочных значений. Также можно использовать статистическую модель для прогнозирования наблюдения выброса, а затем использовать прогнозируемое значение для его оценки.
заниматься отдельно
Если имеется большое количество выбросов, их следует рассматривать отдельно в статистической модели. Один из подходов состоит в том, чтобы рассматривать две группы как две отдельные группы и строить отдельные модели для обеих групп, а затем объединять результаты.