Пишите вверху:
Это не оригинал!Хочешь написать маленькое открытие не лучше своего, знай колонку,@moanPYTHON.
Богиня тоже написалавидеочтобы помочь объяснить.
Уважайте оригинальность, я не изменил ни слова. . .
переоснащение
Мы знаем, что переобучение — это так называемая чрезмерная уверенность модели в видимых данных, и оно идеально подходит к этим данным. Если оно имеет возможность переобучения, то это уравнение может быть относительно сложным нелинейным уравнением. Это потому, что x ^ 3 и x ^ 2 здесь заставьте эту пунктирную линию изгибаться, поэтому вся модель приложит особые усилия, чтобы изучить параметры cd, действующие на x ^ 3 и x ^ 2. Но мы ожидаем, что модель Нам нужно изучить эту синюю кривую. Потому что она может более эффективно обобщать данные.И только один y=a+bx нужен для выражения закона данных.Или синяя линия в начале и красная линия тоже имеют два параметра cd, но когда они окончательно выучены ,и c и d равны 0.Хотя погрешность синего уравнения больше чем у красной линии,но данные в целом все же лучше.Как мы Гарантированно узнаем такие параметры?Вот причина появления l1 l2 регуляризация.
L1 L2 Regularization
Для линии только что мы обычно используем это уравнение, чтобы найти ошибку между моделью y(x) и реальными данными y, а L1 L2 просто добавляет еще одну вещь после этой формулы ошибки, так что ошибка зависит не только от подходящие данные.Если это квадрат каждого параметра, то мы называем это регуляризацией L2, если это абсолютное значение каждого параметра, мы называем это регуляризацией L1 , Так как же они работают?
смысл
Давайте обсудим регуляризацию L2, Процесс машинного обучения - это процесс уменьшения ошибки путем изменения параметра тета, но при уменьшении ошибки более нелинейный параметр, например тета 4 рядом с х ^ 3, будет изменен больше, потому что, если вы используете сильные нелинейные параметры, вы можете сделать уравнение более извилистым, и вы можете лучше соответствовать точкам данных этих распределений Тета 4 сказал, посмотрите, насколько я хорош, позвольте мне сделать это Измените модель, чтобы соответствовать всем данным , но такое отношение вызвало сильную контратаку со стороны уравнения ошибки.Уравнение ошибки говорит: нет-нет-нет, мы команда, хотя вы молодцы, на вас нельзя просто положиться Люди, если вы ошибаетесь, эффективность всей нашей команды вдруг снизится, и мне придется держаться за тех, кто выделяется в команде. Это основная идея всего набора алгоритмов регуляризации. А как насчет регуляризации L1, L2? разные?
Изображения
Представьте теперь, что есть только два параметра тета1 тета2, которые нужно изучить, синий центр круга - это место, где ошибка наименьшая, и ошибка одинакова на каждой синей линии Уравнение для регуляризации - это дополнительная ошибка, возникающая на желтой линии (что также может быть понимается как степень штрафа), и дополнительная ошибка на желтом круге такая же. Таким образом, точка на пересечении синей линии и желтой линии может минимизировать сумму двух ошибок. Это является решением тета1 и тета2 после регуляризации.Упомянем еще один момент: используя метод L1, мы, вероятно, получим результат, в котором сохраняются только функции тета1, поэтому многие люди также используют регуляризацию l1 для выбора важных функций, которые вносят наибольший вклад в результат. Но узел l1 не является стабильным. Например, при обучении пакетных данных каждый пакет данных будет иметь немного другую кривую ошибки, как показано ниже:
В ответ на это изменение белая точка L2 не будет двигаться слишком сильно, в то время как белая точка L1 может перескакивать во многие разные места, потому что суммарная ошибка в этих местах аналогична.Боковая сторона показывает нестабильность решения L1
единое выражение
Наконец, чтобы контролировать силу этой регуляризации, мы добавим лямбда-параметр и используем перекрестную проверку, чтобы выбрать лучшую лямбду, В настоящее время, чтобы унифицировать этот тип метода регуляризации, мы также будем использовать p для представления степени регуляризации параметров, Это окончательное выражение этой серии методов регуляризации.