Персональный сайт Red Stone:redstonewill.com
Линейная регрессия и логистическая регрессия часто являются первыми алгоритмами, которые люди используют для изучения прогностических моделей. Из-за их популярности многие аналитики считают, что это единственная форма регрессии. И академики, которые знают больше, будут знать, что они являются двумя основными формами всех регрессионных моделей.
Дело в том, что существует множество форм регрессии, каждая из которых имеет свое специфическое применение. В этом посте я представлю 7 наиболее распространенных моделей регрессии в простой форме. С помощью этой статьи я надеюсь помочь вам получить более широкое и всестороннее понимание регрессии, а не просто знать, как использовать линейную регрессию и логистическую регрессию для решения практических задач.
В этой статье в основном будут представлены следующие аспекты:
-
Что такое регрессионный анализ?
-
Зачем использовать регрессионный анализ?
-
Какие бывают виды регрессии?
-
Линейная регрессия
-
Логистическая регрессия
-
Полиномиальная регрессия
-
Ступенчатая регрессия
-
Ридж-регрессия
-
Лассо-регрессия
-
Регрессия ElasticNet
-
-
Как выбрать подходящую регрессионную модель?
1. Что такое регрессионный анализ?
Регрессионный анализ — это метод прогнозного моделирования, который изучает взаимосвязь между зависимой переменной (целью) и независимой переменной (предиктором). Этот метод используется в прогнозировании, моделях временных рядов и поиске причинно-следственных связей между переменными. Например, изучение взаимосвязи между безрассудным вождением водителей и частотой дорожно-транспортных происшествий может быть решено с помощью регрессионного анализа.
Регрессионный анализ является важным инструментом для моделирования и анализа данных. На изображении ниже показано использование кривой для соответствия дискретным точкам данных. Среди них сумма различий между всеми дискретными точками данных и соответствующими позициями подобранной кривой сведена к минимуму, и мы представим более подробную информацию позже.
2. Зачем использовать регрессионный анализ?
Как упоминалось выше, регрессионный анализ может оценить взаимосвязь между двумя или более переменными. Давайте разберемся на простом примере:
Скажем, например, вы хотите оценить рост продаж компании на основе текущих экономических условий. У вас есть последние данные компании, показывающие, что продажи растут примерно в 2,5 раза быстрее, чем экономика. Используя это понимание, мы можем предсказать будущие продажи компании на основе текущей и прошлой информации.
Использование регрессионных моделей имеет много преимуществ, например:
-
Выявляет существенные взаимосвязи между зависимыми и независимыми переменными
-
Показывает величину влияния нескольких независимых переменных на зависимую переменную.
Регрессионный анализ также позволяет нам сравнивать влияние переменных, измеренных в разных масштабах, таких как влияние изменения цен и влияние количества рекламных акций. Преимущество этого заключается в том, что он может помочь исследователям рынка / аналитикам данных / специалистам по данным оценить и выбрать лучший набор переменных для построения прогностических моделей.
3. Какие бывают виды регрессии?
Существует множество методов регрессии, которые можно использовать для прогнозирования. Эти методы регрессии в основном основаны на трех показателях (количество независимых переменных, тип измеряемой переменной и форма линии регрессии). Мы подробно обсудим это в следующих главах.
Для творческих людей есть возможность комбинировать вышеуказанные параметры и даже создавать новые регрессии. Но перед этим давайте взглянем на некоторые из наиболее распространенных регрессий.
1) Линейная регрессия
Линейная регрессия — самый известный метод моделирования и один из первых вариантов, когда люди учатся прогнозировать модель. В этом методе зависимая переменная является непрерывной, а независимая переменная может быть либо непрерывной, либо дискретной. Суть регрессии линейна.
Линейная регрессия устанавливает связь между зависимой переменной (Y) и одной или несколькими независимыми переменными (X) с помощью наиболее подходящей прямой линии (также известной как линия регрессии).
Его выражение: Y=a+b*X+e, где a — точка пересечения линии, b — наклон линии, а e — член ошибки. Если задана независимая переменная X, прогнозируемое значение, зависимая переменная Y, может быть вычислено из этого выражения линейной регрессии.
Разница между одномерной линейной регрессией и множественной линейной регрессией заключается в том, что множественная линейная регрессия имеет более 1 независимой переменной, тогда как одномерная линейная регрессия имеет только 1 независимую переменную. Следующий вопрос: «Как получить наилучшую прямую линию?»
Как получить наилучшую прямую линию (определить значения a и b)?
Эту задачу легко решить с помощью метода наименьших квадратов. Метод наименьших квадратов — это распространенный алгоритм подбора линий регрессии. Он вычисляет линию наилучшего соответствия путем минимизации суммы квадратов вертикальных ошибок каждой точки данных из прогнозируемой линии. Поскольку расчет представляет собой сумму квадратов ошибок, все положительные и отрицательные значения ошибок не компенсируют друг друга.
Мы можем использовать метрику R-квадрат для оценки производительности модели.
Особенности:
-
Между независимой переменной и зависимой переменной должна быть линейная зависимость.
-
Множественная регрессия страдает мультиколлинеарностью, автокорреляцией и гетероскедастичностью.
-
Линейная регрессия очень чувствительна к выбросам. Выбросы могут серьезно повлиять на линию регрессии и итоговое прогнозируемое значение.
-
Мультиколлинеарность увеличивает дисперсию оценок коэффициентов и делает оценки очень чувствительными к небольшим изменениям в модели. В результате оценки коэффициентов нестабильны.
-
В случае нескольких независимых переменных мы можем использовать методы прямого отбора, обратного исключения и пошагового отбора, чтобы выбрать наиболее важную независимую переменную.
2) Логистическая регрессия
Логистическая регрессия используется для расчета вероятности успеха или неудачи события. Логистическую регрессию следует использовать, когда зависимая переменная является двоичной (0/1, Истина/Ложь, Да/Нет). Здесь диапазон значений Y равен [0,1], что может быть представлено следующим уравнением.
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
где р — вероятность наступления события. Вам может быть интересно, «зачем использовать логарифм в уравнении?»
Поскольку здесь мы используем биномиальное распределение (зависимую переменную), нам нужно выбрать подходящую функцию активации, которая может отображать выходные данные в [0,1], а функция логита удовлетворяет требованиям. В приведенном выше уравнении оптимальные параметры получены с использованием оценки максимального правдоподобия вместо использования линейной регрессии для минимизации квадрата ошибки.
Особенности:
-
Логистическая регрессия широко используется для задач классификации.
-
Логистическая регрессия не требует линейной связи между зависимыми и независимыми переменными, она может обрабатывать несколько типов отношений, поскольку применяет нелинейное логарифмическое преобразование к прогнозируемому результату.
-
Чтобы избежать переобучения и недообучения, мы должны охватить все полезные переменные. Хорошей практикой для обеспечения этого на практике является использование метода пошагового скрининга для оценки логистической регрессии.
-
Чем больше количество обучающих выборок, тем лучше, поскольку при небольшом количестве выборок оценка максимального правдоподобия будет менее эффективной, чем метод наименьших квадратов.
-
Независимые переменные не должны коррелировать друг с другом, т.е. мультиколлинеарность отсутствует. Однако при анализе и моделировании мы можем включить эффекты взаимодействия категориальных переменных.
-
Если значение зависимой переменной является порядковым, это называется порядковой логистической регрессией.
-
Если зависимая переменная относится к нескольким категориям, это называется множественной логистической регрессией.
3) Полиномиальная регрессия
В соответствии с уравнением регрессии, если показатель степени независимой переменной больше 1, это уравнение полиномиальной регрессии, а именно:
y=a+b*x^2
В полиномиальной регрессии линия наилучшего соответствия — это не прямая линия, а кривая, которая соответствует точкам данных.
Особенности:
Хотя может быть некоторый стимул для подбора полиномов более высокого порядка для уменьшения ошибки, это склонно к переобучению. Подогнанная кривая должна быть построена в виде графика с акцентом на то, чтобы кривая отражала истинное распределение выборки. Изображение ниже является примером, чтобы помочь нам понять.
Обратите особое внимание на концы кривой, чтобы увидеть, имеют ли смысл эти формы и тенденции. Более высокие полиномы могут привести к странным результатам вывода.
4) Пошаговая регрессия
Пошаговая регрессия используется, когда мы имеем дело с несколькими независимыми переменными. В этом методе выбор независимых переменных осуществляется с помощью автоматического процесса, не требующего вмешательства человека.
Пошаговая регрессия выполняется путем просмотра статистики, такой как R-квадрат, t-статистика, показатели AIC, для определения важных переменных. Поэтапно подбирает регрессионные модели, добавляя/удаляя ковариаты на основе определенных критериев. Общие методы пошаговой регрессии заключаются в следующем:
-
Стандартная пошаговая регрессия делает две вещи, добавляя или удаляя независимые переменные на каждом шаге.
-
Прямой выбор начинается с самой важной независимой переменной в модели и увеличивает переменные на каждом шаге.
-
Исключение назад начинается со всех независимых переменных в модели, а затем на каждом шаге удаляется наименее значимая переменная.
Целью этого метода моделирования является получение максимальной прогностической способности за счет использования наименьшего количества независимых переменных. Это также один из способов работы с многомерными наборами данных.
5) Регрессия хребта
Ридж-регрессия — это метод, используемый, когда данные страдают мультиколлинеарностью (независимые переменные сильно коррелированы). В мультиколлинеарности, даже несмотря на то, что оценка методом наименьших квадратов (OLS) является несмещенной, дисперсия велика, что делает наблюдения далекими от истинного значения. Гребневая регрессия может эффективно уменьшить дисперсию, добавляя дополнительную степень смещения к оценке регрессии.
Ранее мы ввели уравнение линейной регрессии следующим образом:
Это уравнение также имеет член ошибки, и полное уравнение может быть выражено как:
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
В линейном уравнении ошибку предсказания можно разложить на две подкомпоненты. Во-первых, из-за предвзятости, а во-вторых, из-за дисперсии. Ошибки прогнозирования могут возникать из-за одного или обоих этих компонентов. Здесь мы обсудим ошибку из-за дисперсии.
Ридж-регрессия решает проблему мультиколлинеарности за счет уменьшения параметра λ (лямбда). См. уравнение ниже:
В приведенной выше формуле есть два элемента. Первый член является методом наименьших квадратов, а второй представляет собой сумму квадратов коэффициентов β, умноженных на параметр сжатия λ. Цель добавления второго члена состоит в том, чтобы уменьшить величину коэффициента β, чтобы уменьшить дисперсию.
Особенности:
-
Гребневая регрессия делает все те же предположения, что и регрессия методом наименьших квадратов, за исключением того, что нормальность не предполагается.
-
Гребневая регрессия уменьшает значение коэффициентов, но не до нуля, что указывает на то, что у нее нет функции выбора признаков.
-
Это метод регуляризации, использующий регуляризацию L2.
6) Лассо-регрессия
Подобно хребтовой регрессии, регрессия Лассо (оператор наименьшего абсолютного сокращения и выбора) снижает абсолютное значение коэффициентов регрессии. Кроме того, он способен уменьшить изменчивость и повысить точность моделей линейной регрессии. См. уравнение ниже:
Лассо-регрессия отличается от гребневой регрессии тем, что она использует штрафную функцию как сумму абсолютных значений коэффициентов вместо квадратов. Это приводит к штрафному члену (или, что то же самое, к сумме абсолютных значений оценок ограничений), так что некоторые оценки коэффициентов регрессии равны нулю. Чем больше наложенный штраф, тем ближе оценка к нулю. Реализует выбор из n переменных.
Особенности:
-
Регрессия Лассо и регрессия наименьших квадратов делают все те же предположения, за исключением того, что нормальность не предполагается.
-
Лассо-регрессия сужает коэффициенты до нуля (точно до нуля), что помогает при выборе признаков.
-
Это метод регуляризации, который использует регуляризацию L1.
-
Если набор независимых переменных сильно коррелирован, то регрессия лассо выберет только одну из них, а остальные сократит до нуля.
7) Эластичная чистая регрессия
Эластичная регрессия — это гибридный метод регрессии гребня и регрессии лассо, в котором используется регуляризация как L2, так и L1. Эластичные сети полезны, когда есть несколько коррелированных признаков. Лассо-регрессия, вероятно, выберет один из них случайным образом, в то время как эластичная регрессия, вероятно, выберет оба.
Одним из преимуществ сравнения регрессии гребня с регрессией лассо является то, что она позволяет эластичной регрессии унаследовать некоторую стабильность регрессии гребня в состоянии вращения.
Особенности:
-
В случае сильно коррелированных переменных он поддерживает групповые эффекты.
-
Не имеет ограничений на количество выбранных переменных
-
Он имеет два коэффициента усадки λ1 и λ2.
В дополнение к этим 7 наиболее часто используемым методам регрессии вы также можете взглянуть на другие модели, такие как байесовская, экологическая и робастная регрессия.
4. Как выбрать подходящую модель регрессии?
Жизнь обычно проста, когда вы знаете только один или два трюка. Один знакомый мне учебный институт говорит своим студентам: если результат непрерывен, используйте линейную регрессию; если результат бинарный, используйте логистическую регрессию! Однако чем больше вариантов для выбора, тем сложнее выбрать подходящий ответ. Аналогичная ситуация возникает при выборе регрессионной модели.
Во многих типах регрессионных моделей важно выбрать наиболее подходящий метод, основанный на типах независимых и зависимых переменных, размерности данных и других важных характеристиках данных. Вот несколько советов о том, как выбрать подходящую модель регрессии:
-
Интеллектуальный анализ данных является незаменимым звеном в построении прогностических моделей. Это должно быть первым шагом в выборе правильной модели, т. е. определение взаимосвязи и влияния каждой переменной.
-
Чтобы сравнить соответствие различных моделей, мы можем проанализировать их различные параметры индекса, такие как параметры статистической значимости, R-квадрат, скорректированный R-квадрат, AIC, BIC и условия ошибки, а другой критерий Mallows Cp. Проверьте модель на возможные смещения, сравнив ее со всеми возможными подмоделями (или тщательно выбрав их).
-
Перекрестная проверка — лучший способ оценить прогностические модели. Вы можете разделить набор данных на две группы (обучение и проверка). Мера точности прогноза определяется путем измерения простой среднеквадратической ошибки между наблюдаемыми и прогнозируемыми значениями.
-
Методы автоматического выбора модели не следует использовать, если в наборе данных есть несколько смешанных переменных, поскольку нежелательно одновременно включать эти смешанные переменные в модель.
-
Это также зависит от ваших целей. Простые модели легче реализовать, чем модели с высокой статистической значимостью.
-
Методы регуляризации регрессии (LasSo, Ridge и ElasticNet) хорошо работают, когда набор данных многомерный, а независимые переменные мультиколлинеарны.
Вывод:
Надеюсь, у вас сложилось общее впечатление о возвращении. Эти методы регрессии следует выбирать и применять в соответствии с различными условиями данных. Один из лучших способов выяснить, какую регрессию использовать, — это изучить семейство переменных, то есть дискретных или непрерывных.
В этой статье я обсудил 7 типов методов регрессии и ключевые моменты, которые нужно знать о каждой регрессии. Как новичок в этой отрасли, я рекомендую вам изучить эти методы и реализовать эти модели в реальных приложениях.
Оригинальная ссылка:
45 вопросов для проверки Data Scientist по регрессии (Skill test — Regression Solution)