Алгоритм линейной регрессии (2)

машинное обучение

Содержание этого раздела заключается в измерении показателей алгоритма линейной регрессии. Карта выглядит следующим образом:

Среднеквадратическая ошибка MSE

Есть проблема: эта метрика иmСвязанный. Не могу сравнить Поэтому мы можем легко уточнить наши показатели, разделив их наm.

среднеквадратическая ошибка RMSE

Еще одна проблема с этим MSE заключается в том, что размеры разные. Набор данных находится в десяти тысячах юаней, но MSE действительно представляет собой квадрат десяти тысяч юаней, что, очевидно, является другим измерением. Этот принцип аналогичен тому, почему существует стандартное отклонение и дисперсия, оба с целью унификации измерений.

Итак, наше решение совпадает с дисперсией и стандартным отклонением, пустьMSEназначать, получатьRMSE:

средняя абсолютная ошибка MAE

Кроме того, есть очень простой метод, а именно:

RMSE vs MAE

Размеры RMSE и MAE одинаковы, и они соответствуют y в данных. Их отличия заключаются в следующем:

настоящий бой

Давайте попрактикуемся с реальными данными о ценах на жилье в Бостоне.

  • Шаг 1: Импортируйте данные -

  • Шаг 2: Перехватываем особенности количества комнат

  • Шаг 3: нарисуйте точечную диаграмму

  • Шаг 4: Устраните точки помех

j


from sklearn.model_selection import train_test_split

x_train,x_test,y_train,y_test = train_test_split(x,y,shuffle =666)

После разделения:

  • Шаг 5. Вызовите алгоритм регрессии, чтобы сделать прогнозы

  • Шаг 6: Алгоритмическое измерение

R Squared

На самом деле существует проблема с несколькими упомянутыми выше критериями оценки, то есть вместо использования обычных критериев точности классификации, то есть 0 означает наихудший, 1 означает наилучший, и тогда значение точности алгоритма равно (0, 1), мы можем легко сравнить плюсы и минусы двух алгоритмов. Например, в Алгоритме 1 я использую в качестве признака размер дома, а в Алгоритме 2 я использую в качестве признака расположение дома от центра города После использования расчета RMSE или MAE невозможно измерить плюсы и минусы двух алгоритмов, потому что один - это площадь, а другой - расстояние. Не одно и то же.

Поэтому нам необходимо ввести новый показатель:R Squared.

Конкретно:

Почему вы говорите, что это хорошо? Мы можем думать об этом так:

использовать

Прогноз называется базовой моделью, которая не имеет ничего общего с x, поэтому ее ошибка должна быть относительно большой.

Таким образом, мы можем сделать такое понимание индикатора:

Далее упрощаем формулу R-квадрата:

Далее, давайте реализуем это с помощью кодаR Square:

Затем мы звонимsklearnПопробуйте способ упаковки:

Вы можете видеть, что результат тот же ~


Ладно, вторая часть окончена, молча вознаградите себя конфеткой~~