предисловие
На этапе предварительной обработки данных машинного обучения в первую очередь нужно найти выбросы в наборе данных, а затем выполнить дополнительную обработку. Конечно, в обработке выбросов нет серебряной пули, и мы можем только проанализировать конкретную ситуацию и выбрать метод обработки в зависимости от эффекта.
Гистограмма
Глядя на гистограмму набора данных, вы можете увидеть некоторые подсказки. Например, на следующем рисунке внизу представлен исходный набор данных, а вверху — соответствующая гистограмма. Вы можете видеть, что большинство из них распределены слева от 11000, а справа от него есть некоторые распределения.Эти очень немногие точки, вероятно, будут выбросами.
принцип сигмы
Некоторые простые сценарии могут напрямую использовать некоторые критерии для поиска выбросов, например 3 сигмы или 5 сигм. Как показано на рисунке ниже, при использовании критерия 3 сигма обнаруживается 5 выбросов. Процесс в основном вычисляет среднееmu
и стандартное отклонениеsigma
, а затем сравните[mu-3*sigma,mu+3*sigma]
Вторичная сигма-обработка
Если прямое использование принципа сигмы неэффективно, то есть некоторые точки, которые не являются проблемными, могут быть идентифицированы как аномальные точки, или некоторые аномальные точки могут не быть найдены, то в этом случае можно рассмотреть вторичную сигма-обработку. . В первый раз используется n1 сигма, во второй раз n2 сигма.
Быстрое преобразование Фурье
Если это периодические данные временного ряда, если исходный сигнал содержит шум, рассмотрите возможность использования быстрого преобразования Фурье для поиска выбросов.
Предположим, есть исходный временной ряд, а теперь добавляем к нему гауссовский шум.Гистограмма гауссовского шума - это вторая строка на рисунке, а затем она становится третьей строкой временного ряда с гауссовым шумом.После добавления шума выглядит довольно хаотично, поэтому мы выполняем Фу. Преобразование Ли преобразует его в частотную область, чтобы увидеть, можно ли выделить шум, и вычисление ускоряется с помощью быстрого преобразования Фурье.
Две самые уникальные точки хорошо видны на частотной характеристике.Соответствующая частота равна 5. Зная частоту, шум можно разделить на определенную полосу пропускания.Например, если выбрано 0,5, то частотный диапазон составляет [4,5, 5.5]. После удаления шума мы можем получить сигнал временного ряда после удаления шума с помощью обратного преобразования Фурье.
срединный метод
Аналогичен среднему методу, но среднее иногда усредняет различия, и эффект не так хорош, поэтому чаще используется медианный метод. Его основная идея состоит в том, чтобы определить размер окна, а затем постоянно сравнивать значение со значением медианы в пределах окна, перемещая окно.Если расстояние между точкой и значением медианы превышает заданный порог, это означает, что это аномалия точка. Ниже представлены результаты до и после фильтрации методом медианы.
Другие методы
Цепь Маркова Монте-Карло (MCMC), процесс Гаусса и т. д. могут использоваться.
github
------------- Рекомендуем прочитать ------------
Зачем писать «Анализ проектирования ядра Tomcat»
Резюме моей статьи за 2017 год — машинное обучение
Резюме моих статей за 2017 год — Java и промежуточное ПО
Резюме моих статей 2017 года — глубокое обучение
Краткое изложение моих статей за 2017 год — исходный код JDK
Резюме моей статьи за 2017 год — обработка естественного языка
Резюме моих статей 2017 года — Java Concurrency
Поговори со мной, задай мне вопросы:
Добро пожаловать, чтобы следовать: