На данный момент, однако, полезно продолжить использование текущего метода и рассмотреть, как его можно применить на практике к наборам данных ограниченного размера, где мы можем захотеть использовать относительно сложные и гибкие модели. Одним из методов, часто используемых для контроля переобучения в этом контексте, является регуляризация, которая включает добавление штрафного члена к функции ошибок (1.2), чтобы привести коэффициенты к более высоким значениям. Простейший штрафной член этого типа принимает форму квадрата для всех коэффициентов, что приводит к корректирующей функции вида
в, по сравнению с суммой квадратов ошибок, коэффициентКонтролирует относительную важность идей регуляризации. Обратите внимание, что обычно коэффициенты в регуляризаторе игнорируются., так как его включение приводит к тому, что результаты зависят от выбора источника целевой переменной или могут включать коэффициенты, но включает в себя собственный коэффициент регуляризации (более подробно мы обсуждаем эту тему в разделе 5.5.1). Точно так же функция ошибок в (1.4) может быть минимизирована точно в замкнутой форме. Такие методы называются в статистической литературе методами сжатия, потому что они уменьшают значение коэффициентов. Особый случай квадратичных регуляризаторов называется гребневой регрессией. В контексте нейронных сетей этот подход называется уменьшением веса.
Рис. 1.7 Использование регуляризованной функции ошибок (1.4) дляи. без регуляризации, соответствующий, как показано в правом нижнем углу рисунка 1.4.
На рис. 1.7 показанРезультаты подгонки полинома порядка к тому же набору данных, что и раньше, но теперь с использованием регуляризованной функции ошибок, приведенной в (1.4). Мы видим, что для, переобучение подавлено, и теперь у нас есть базисная функцияБолее близкое представление о. Однако, если мыИспользуя слишком большое значение, мы получаем очень плохое соответствие, как показано на рис. 1.7.Показано. В таблице 1.2 приведены соответствующие коэффициенты подобранных полиномов, показывающие, что регуляризация имеет желаемый эффект уменьшения величины коэффициентов.
Таблица 1.2Коэффициенты многочленовтаблица параметров регуляризацииЦенность разная. Уведомлениемодели без регуляризации соответствует график в правом нижнем углу рис. 1.4. Мы видим, что сПо мере увеличения значения типичный размер коэффициента становится меньше.
Влияние члена регуляризации на ошибку обобщения можно определить, нанеся на график значения RMSE (1.3) обучающей и тестовой выборок сЭто видно из сравнительной диаграммы, как показано на рисунке 1.8. Мы обнаружили, что на самом делеТеперь контролирует эффективную сложность модели и, таким образом, определяет степень переобучения.
Проблема сложности модели является важной и будет подробно обсуждаться в разделе 1.3. Здесь нам просто нужно отметить, что если мы попытаемся использовать этот метод минимизации функции ошибки для решения реальной проблемы, мы должны найти способ определить подходящее значение сложности модели. Приведенные выше результаты предлагают простой способ добиться этого путем разделения имеющихся данных на коэффициенты, используемые для определенияОбучающий набор и используемый для оптимизации сложности модели (или) для отдельного набора проверки (также известного как набор задержек). Однако во многих случаях это оказалось бы слишком расточительным использованием ценных обучающих данных, и мы должны использовать более сложные подходы.
Наше обсуждение подгонки полиномиальной кривой до сих пор в значительной степени полагалось на интуицию. Теперь мы ищем более принципиальный подход к проблемам распознавания образов, обсуждая теорию вероятностей. Помимо обеспечения основы почти для всех последующих разработок в этой книге, она также даст нам некоторые важные идеи, представленные в тексте CON о подборе полиномиальной кривой, и позволит нам распространить эти концепции на более сложные ситуации.
Рисунок 1.8Среднеквадратическая ошибка полинома (1.3) такая же, какдиаграмма отношений.