Когда необходима нормализация данных? Зачем?

Программа перевода самородков

Когда требуется нормализация данных? Зачем?

Руководство по стандартизации данных

Credits : 365datascience.com

Нормализация данных — важный метод.Обычно мы используем его для предварительной обработки данных перед использованием многих моделей машинного обучения.Он может нормализовать диапазон каждой функции во входном наборе данных.

Некоторые инженеры по машинному обучению склонны слепо стандартизировать свои данные, прежде чем использовать все модели машинного обучения, однако они не знают причины стандартизации данных, не говоря уже о том, когда необходимо использовать этот метод. Поэтому цель этого поста — объяснить, как, зачем и когда нормализовать данные.

стандартизация

Когда объекты входного набора данных имеют большие различия в своих диапазонах или когда каждый из них использует разные единицы измерения (скажем, некоторые в метрах, некоторые в сантиметрах), мы думаем о нормализации данных.

Различия в диапазоне этих исходных функций могут вызвать ненужные проблемы для многих моделей машинного обучения. Например, для модели, основанной на расчете расстояния, когда одно из собственных значений сильно варьируется, то это сильно повлияет на результаты прогноза.

Давайте возьмем пример здесь. Теперь у нас есть набор 2D-данных с двумя функциями: рост в метрах (от 1 до 2 метров) и вес в фунтах (от 10 до 200 фунтов). Независимо от того, какую модель на основе расстояния вы используете в этом наборе данных, функция веса будет иметь гораздо большее влияние на результаты, чем функция высоты, из-за ее относительно большего диапазона вариаций данных. Поэтому, чтобы предотвратить эту проблему, мы будем использовать здесь нормализацию данных, чтобы ограничить диапазон изменения данных функции веса.

Как стандартизировать данные?

Z-score

Z-score— один из самых популярных методов нормализации данных, при котором мы вычитаем среднее значение и делим его на стандартное отклонение для каждого элемента данных.

После нормализации данных среднее значение данных для всех признаков становится равным 0, а дисперсия становится равной 1, поэтому диапазон вариации данных для всех признаков теперь согласован.

На самом деле существует много методов нормализации данных, но для уменьшения сложности мы используем в этой статье только этот метод.

Когда требуется нормализация данных? Зачем?

Как показано выше, в моделях на основе расстояний нормализация данных используется для предотвращения того, чтобы признаки с большим диапазоном оказывали большее влияние на результаты прогнозирования. Однако причина использования нормализации не только эта, для разных моделей будут разные причины.

Итак, какие методы и модели машинного обучения нам нужны для нормализации данных перед использованием? Какова причина?

1- Анализ основных компонентов:

В анализе главных компонент признакам с большой дисперсией или большим размахом присваиваются более высокие веса, чем данным с малой дисперсией и малым размахом, что приведет к необоснованному преобладанию у них первой главной компоненты (компонента с наибольшей дисперсией).Разнообразие. Почему вы говорите, что это неразумно? Потому что то, что заставляет эту функцию иметь больший вес, чем другие, просто потому, что они измеряются по разным шкалам.

Нормализация данных предотвращает это, придавая всем функциям одинаковый вес.

2- Кластеризация:

Модели кластеризации — это алгоритмы, основанные на расстоянии. Чтобы измерить сходство между наблюдениями и сгруппировать их вместе, модель должна использовать метрику расстояния. Метрики расстояния. В этом алгоритме признаки с большим диапазоном будут иметь большее влияние на результаты кластеризации. Поэтому нам необходимо нормализовать данные перед кластеризацией.

3- КНН:

k-ближайших соседей (алгоритм классификации) — это классификатор на основе расстояния, который классифицирует новые данные на основе меры сходства (например, меры расстояния) с помеченными наблюдениями в обучающем наборе. Нормализация заставляет все переменные вносить одинаковый вклад в меру сходства.

4- СВМ:

Методы опорных векторов пытаются максимизировать расстояние между плоскостью решений и опорными векторами. Если функция имеет большое значение, она окажет большее влияние на результат расчета, чем другие функции. Следовательно, нормализация заставляет все признаки оказывать одинаковое влияние на метрику расстояния.

Credits : Arun Manglick ([arun-aiml.blogspot.com](http://arun-aiml.blogspot.com/))

5- Измерьте важность независимых переменных в регрессионных моделях.

Вы можете измерить важность переменных в регрессионном анализе. первое использованиестандартизацияПосле обучения модели независимыми переменными, а затем вычисления абсолютной разности их соответствующих стандартизированных коэффициентов можно сделать вывод. Однако, если независимые переменные не стандартизованы, сравнение их коэффициентов будет бессмысленным.

6- Лассо-регрессия и гребневая регрессия

Лассо-регрессия и гребневая регрессия штрафуют коэффициенты, соответствующие каждой переменной. Диапазон переменных будет влиять на то, насколько штрафуются их соответствующие коэффициенты. Поскольку переменные с высокой дисперсией имеют маленькие коэффициенты, они меньше штрафуются. Поэтому перед использованием двух приведенных выше регрессий требуется нормализация.

Когда нет необходимости стандартизировать?

Логистическая регрессия и древовидные модели

Логистическая регрессия, древовидные модели (деревья решений, случайные леса) и деревья с градиентным усилением не чувствительны к размеру переменных. Так что нормализация данных здесь не нужна.

в заключении

Подводя итог, правильное время для использования нормализации данных зависит от того, какую модель вы используете в настоящее время и для чего вы хотите использовать модель. Поэтому, если инженер по машинному обучению хочет знать, когда следует нормализовать данные и построить успешную модель машинного обучения, важно понимать внутреннюю работу алгоритмов машинного обучения.

Примечание. В этой статье перечислены не все модели и методы, требующие стандартизации.

использованная литература:

  • [365DataScience.com]: Explaining Standardization Step-By-Step
  • [Listendata.com ]: when and why to standardize a variable

Если вы обнаружите ошибки в переводе или в других областях, требующих доработки, добро пожаловать наПрограмма перевода самородковВы также можете получить соответствующие бонусные баллы за доработку перевода и PR. начало статьиПостоянная ссылка на эту статьюЭто ссылка MarkDown этой статьи на GitHub.


Программа перевода самородковэто сообщество, которое переводит высококачественные технические статьи из Интернета сНаггетсДелитесь статьями на английском языке на . Охват контентаAndroid,iOS,внешний интерфейс,задняя часть,блокчейн,продукт,дизайн,искусственный интеллектЕсли вы хотите видеть более качественные переводы, пожалуйста, продолжайте обращать вниманиеПрограмма перевода самородков,официальный Вейбо,Знай колонку.