1. Что такое линейная регрессия
- Линейный: связь между двумя переменнымидалинейная функция - графикэто прямая линия, называется линейным.
- Нелинейный: связь между двумя переменныминетлинейная функция - графикне прямая линия, называемая нелинейностью.
- Регрессия: Когда люди измеряют вещи, из-за ограниченности объективных условий они получают измеренное значение, а не реальную стоимость вещи.вернуться к истинному значению, где начинается регресс.
2. Какие проблемы можно решить
Обрабатывается большой объем данных наблюдений, чтобы получить математическое выражение, более соответствующее внутренним законам вещей. То есть найти закон между данными и данными, чтобы результат можно было смоделировать, то есть результат можно было предсказать. Решение состоит в том, чтобы получить неизвестные результаты из известных данных. Например: прогноз цен на жилье, оценка кредитоспособности, оценки кассовых сборов фильмов и т. д.
3. Какое общее выражение
w называется коэффициентом x, а b называется смещением.
4. Как рассчитать
4.1 Loss Function--MSE
использоватьГрадиентный спускНайдите точку минимума, которая является минимальной ошибкой, и, наконец, найдите w и b.
5. Как решить проблему переобучения и недообучения
Используя член регуляризации, то есть добавляя член параметра к функции потерь, член регуляризации имеетРегуляризация L1, регуляризация L2, ElasticNet. Добавление этого регуляризатора дает следующие преимущества:
- Контролируйте величину параметров, чтобы модель не была «беззаконной».
- Ограниченное пространство поиска параметров
- Решить проблему недообучения и переобучения.
5.1 Что такое регуляризация L2 (гребенчатая регрессия)
уравнение:
Представляет приведенную выше функцию потерь, добавляя сумму квадратов параметра w к функции потерь и умножая, предполагая:
Вспомните уравнение для единицы измерения, которое вы узнали ранее:
Как и в случае с членом регуляризации L2, наша задача на данный момент состоит в том, чтобы найти решение, которое принимает минимальное значение J при ограничении L. В процессе решения J0 можно рисовать контурные линии. В то же время функцию регуляризации L2 L также можно изобразить на двумерной плоскости w1w2. Как показано ниже:
На рисунке в виде черного круга представлено L. При непрерывном приближении метода градиентного спуска пересечение с кругом генерируется впервые, и это пересечение с трудом появляется на оси координат. Это показывает, что регуляризация L2 не так проста для получения разреженной матрицы, и в то же время, чтобы найти минимальное значение функции потерь, w1 и w2 бесконечно близки к 0, чтобы предотвратить переоснащение.
5.2 Когда использовать регуляризацию L2
Пока данные линейно связаны, соответствие с линейной регрессией не очень хорошее,нужна регуляризация, вы можете рассмотреть возможность использования гребневой регрессии (L2). Если размерность входного объекта очень высока и это разреженные линейные отношения, то гребневая регрессия не подходит. Рассмотрите возможность использования регрессии Лассо.
5.3 Что такое регуляризация L1 (регрессия Лассо)
Разница между регуляризацией L1 и регуляризацией L2 заключается в разнице в условиях штрафа:
В процессе решения J0 можно рисовать контурные линии. В то же время функцию регуляризации L1 можно изобразить и на двумерной плоскости w1w2. Как показано ниже:
Штрафной член представлен на рисунке в виде черной призмы.При непрерывной аппроксимации метода градиентного спуска впервые создается пересечение с призмой, и это пересечение может легко появиться на оси координат.Это показывает, что регуляризация L1 позволяет легко получить разреженные матрицы.
5.4 Когда использовать регуляризацию L1
Регуляризация L1 (регрессия Лассо) может уменьшить коэффициенты некоторых признаков и даже сделать некоторые коэффициенты с меньшими абсолютными значениями сразу равными 0, тем самым повышая обобщающую способность модели. Для данных с большим количеством признаков, особенно если линейная связь разрежена, используется регуляризация L1 (регрессия Лассо), или для поиска основных признаков в наборе признаков первым выбором является регуляризация L1 (регрессия Лассо).
5.5 Что такое регрессия ElasticNet
ElasticNet объединяет термин регуляризации L1 и термин регуляризации L2., следующая его формула:
5.6 Сценарии использования регрессии ElasticNet
ElasticNet Когда мы обнаружим, что регрессия Лассо слишком велика (слишком много признаков разрежены до 0), а гребневая регрессия недостаточно регуляризована (уменьшение коэффициента регрессии происходит слишком медленно), мы можем рассмотреть возможность использования регрессии ElasticNet для синтеза и получения лучших результатов.
6. Линейная регрессия требует, чтобы зависимая переменная следовала нормальному распределению?
Мы предполагаем, что шум линейной регрессии следует нормальному распределению со средним значением 0. Когда шум соответствует нормальному распределению N(0,delta^2), зависимая переменная соответствует нормальному распределению N(ax(i)+b,delta^2), где функция предсказания y=ax(i)+ б. Этот вывод можно получить из функции плотности вероятности нормального распределения. То есть, когда шум соответствует нормальному распределению, его зависимая переменная также должна соответствовать нормальному распределению.
Перед подбором данных с помощью модели линейной регрессии сначала требуется, чтобы данные соответствовали или приблизительно соответствовали нормальному распределению, иначе полученная функция подбора будет неверной.
7. Реализация кода
Гитхаб:GitHub.com/NLP-love/ml…
【Машинное обучение легко понять серия статей】
автор:@mantchs
Гитхаб:GitHub.com/NLP-love/ml…
Приглашаются все желающие присоединиться к обсуждению! Улучшайте этот проект вместе! Номер группы: [541954936]