Автор | АНИРУДДХА БХАНДАРИ Компилировать|ВКонтакте Источник | Аналитика Видья
Обзор
- Понимать концепции R-квадрата и скорректированного R-квадрата.
- Узнайте о ключевой разнице между R-квадратом и скорректированным R-квадратом
вводить
Когда я начал свой путь в науке о данных, первым изученным мной алгоритмом была линейная регрессия.
После понимания концепции линейной регрессии и того, как работает алгоритм, я очень рад использовать его и делать прогнозы в постановке задачи. Я уверен, что большинство из вас сделает то же самое. Но как только мы построили модель, какой следующий шаг?
Далее идет сложная часть. После того, как мы построили модель, следующим шагом будет оценка ее производительности. Излишне говорить, что оценка моделей является важной задачей, которая подчеркивает неадекватность моделей.
Выбор наиболее подходящей метрики оценки является важной задачей. Также я столкнулся с двумя важными метриками: помимо MAE/MSE/RMSE, есть R-квадрат и скорректированный R-квадрат. Какая разница между двумя? Какой из них я должен использовать?
R-квадрат и скорректированный R-квадрат — это две оценочные метрики, которые могут сбить с толку любого, кто стремится к науке о данных.
Все они очень важны для оценки проблем регрессии, и мы углубимся в них и сравним их. У каждого из них есть свои плюсы и минусы, о которых мы подробно поговорим в этой статье.
содержание
- остаточная сумма квадратов
- Понимание статистики R-квадрата
- Вопросы о статистике R-квадрата
- Скорректированная статистика R-квадрата
остаточная сумма квадратов
Чтобы четко понять эти концепции, мы обсудим простую проблему регрессии. Здесь мы пытаемся предсказать «заработанные баллы» на основе «времени, потраченного на учебу». Время обучения — это наша независимая переменная, а результаты тестов — наша зависимая или целевая переменная.
Мы можем нарисовать простой график регрессии, чтобы визуализировать эти данные.
Желтые точки представляют собой точки данных, а синяя линия — это наша прогнозируемая линия регрессии. Как видите, наша регрессионная модель не полностью предсказывает все точки данных.
Итак, как мы можем использовать эти данные для оценки предсказания линии регрессии? Мы можем начать с определения остатков для точек данных.
точка в данныхостаточныйэто разница между фактическим значением и значением, предсказанным моделью линейной регрессии.
Остаточный график говорит нам, соответствует ли модель регрессии данным. Квадрат остатка на самом деле является целевой функцией оптимизации регрессионной модели.
Используя остаточные значения, мы можем определить остаточную сумму квадратов, также известную как остаточная сумма квадратов или RSS. .
Чем ниже значение RSS, тем лучше прогнозируемое значение модели. Или можно сказать так: если линия регрессии минимизирует значение RSS, то линия регрессии является линией наилучшего соответствия.
Но в этом есть недостаток — RSS — это масштабная переменная статистика. Поскольку RSS представляет собой сумму квадратов разностей фактического и прогнозируемого значений, значение зависит от размера целевой переменной.
пример:
Предположим, что ваша целевая переменная — это доход, полученный от продажи продукта. Остатки зависят от размера цели. Если размер дохода указан в «100 рупиях» (т. е. цель может быть 1, 2, 3 и т. д.), тогда мы можем получить RSS около 0,54 (гипотетически).
Но если целевая переменная дохода указана в «рупиях» (т. е. целевое значение равно 100, 200, 300 и т. д.), тогда мы можем получить большее значение RSS, равное 5400. Даже если данные не изменятся, значение RSS будет меняться в зависимости от размера цели. Это затрудняет оценку того, что является хорошим значением RSS.
Итак, можем ли мы придумать лучшую инвариантную к масштабу статистику? Здесь на помощь приходит R-квадрат.
Статистика R-квадрата
Статистика R-квадрата — это масштабно-инвариантная статистика, которая дает пропорцию изменения целевой переменной, объясняемую моделью линейной регрессии.
Это может показаться немного сложным, поэтому позвольте мне разбить его здесь. Чтобы определить долю целевого изменения, объясняемого моделью, нам нужно сначала определить следующее:
Сумма квадратов (TSS)
Общее изменение целевой переменной представляет собой сумму квадратов разностей между фактическим значением и его средним значением.
TSS или общая сумма квадратов дает общее изменение Y. Мы видим, что она очень похожа на дисперсию Y. В то время как дисперсия представляет собой среднее значение суммы квадратов различий между фактическим значением и точками данных, TSS представляет собой сумму сумм квадратов.
Теперь, когда мы знаем общую величину изменения целевой переменной, как нам определить долю этого изменения, объясняемую моделью? Вернемся к RSS.
Остаточная сумма квадратов (RSS)
Как мы обсуждали ранее, RSS дает общий квадрат расстояния от фактической точки до линии регрессии. Остаток, можно сказать, это расстояние, которое не захватывает линия регрессии.
Таким образом, RSS в целом дает нам изменения целевой переменной, не объясняемые нашей моделью.
R квадрат
Теперь, если TSS дает общее изменение Y, а RSS дает изменение Y, которое не объясняется X, тогда TSS-RSS дает изменение Y, и эта часть изменения объясняется нашей моделью! Мы можем просто снова разделить на TSS, чтобы получить пропорцию изменения Y, объясненную моделью. Вот наша статистика R-квадрата!
R-квадрат = (TSS-RSS)/TSS
= объясненное изменение/общее изменение
=1 – необъяснимое изменение/общее изменение
Следовательно, R-квадрат дает степень изменчивости целевой переменной, объясняемую моделью или независимыми переменными. Если значение равно 0,7, это означает, что независимая переменная объясняет 70% вариации целевой переменной.
R-квадрат всегда находится между 0 и 1. Более высокий R-квадрат указывает на большее разнообразие, объясняемое моделью, и наоборот.
Если значение RSS низкое, это означает, что линия регрессии очень близка к фактической точке. Это означает, что независимая переменная объясняет большую часть изменений целевой переменной. В этом случае у нас будет очень высокое значение R-квадрата.
И наоборот, если значение RSS очень высокое, это означает, что линия регрессии далека от фактической точки. Следовательно, независимые переменные не могут объяснить большинство переменных в целевой переменной. Это даст нам очень низкое значение R-квадрата.
Таким образом, это объясняет, почему значение R-квадрата дает величину изменения целевой переменной.
Вопросы о статистике R-квадрата
Статистика R-квадрата не идеальна. На самом деле, у него есть один существенный недостаток. Сколько бы переменных мы ни добавили в регрессионную модель, ее значение никогда не уменьшится.
То есть, даже если мы добавим к данным избыточные переменные, значение R-квадрата не уменьшится. Она либо остается неизменной, либо увеличивается по мере добавления новых независимых переменных.
Это, очевидно, не имеет смысла, поскольку некоторые независимые переменные могут оказаться бесполезными при определении целевой переменной. Об этом позаботится регулировка R-квадрата.
Скорректированная статистика R-квадрата
Скорректированный R-квадрат учитывает количество независимых переменных, используемых для прогнозирования целевой переменной. При этом мы можем определить, повысит ли соответствие модели добавление новых переменных в модель.
Давайте посмотрим на формулу корректировки R-квадрата, чтобы лучше понять, как она работает.
это здесь,
-
n - количество точек данных в наборе данных
-
k представляет количество независимых переменных
-
R обозначает значение R-квадрата, определяемое моделью.
Следовательно, если R-квадрат существенно не увеличивается при добавлении новой независимой переменной, то скорректированное значение R-квадрата фактически уменьшится.
С другой стороны, если мы добавим новые независимые переменные и увидим значительное увеличение значения R-квадрата, то скорректированное значение R-квадрата также увеличится.
Если мы добавим в модель случайную независимую переменную, мы увидим разницу между значением R-квадрата и скорректированным значением R-квадрата.
Как видите, добавление случайных независимых переменных не помогает объяснить изменения целевой переменной. Наше значение R-квадрата остается прежним. Итак, давая нам ложное указание, эта переменная может помочь предсказать результат. Однако скорректированное значение R-квадрата упало, что указывает на то, что эта новая переменная фактически не отражает тенденцию целевой переменной.
Очевидно, что скорректированный R-квадрат лучше всего использовать, когда в регрессионной модели несколько переменных. Это позволит нам сравнивать модели с разным количеством независимых переменных.
конец
В этом посте мы рассмотрим, что такое статистика R-квадрата и где она нестабильна. Мы также рассмотрели настройку R-квадрата.
Надеюсь, это поможет вам лучше понять вещи. Теперь вы можете тщательно определить, какие независимые переменные помогут предсказать результат вашей регрессионной задачи.
Оригинальная ссылка:Woohoo.Со слов аналитиков vi.com/blog/2020/0…
Добро пожаловать на сайт блога Panchuang AI:panchuang.net/
sklearn машинное обучение китайские официальные документы:sklearn123.com/
Добро пожаловать на станцию сводки ресурсов блога Panchuang:docs.panchuang.net/