10-11 (1.1 Пример: Аппроксимация полиномиальной кривой)

На данный момент, однако, полезно продолжить использование текущего метода и рассмотреть, как его можно применить на практике к наборам данных ограниченного размера, где мы можем захотеть использовать относительно сложные и гибкие модели. Одним из методов, часто используемых для контроля переобучения в этом контексте, является регуляризация, которая включает добавление штрафного члена к функции ошибок (1.2), чтобы привести коэффициенты к более высоким значениям. Простейший штрафной член этого типа принимает форму квадрата для всех коэффициентов, что приводит к корректирующей функции вида

\widetilde{E}(w)=\frac{1}{2}\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2+\frac{\lambda}{2}||w||^2\tag{1.4}

в $||w||^2\equiv w^Tw=w_0^2+w_1^2+...+w_M^2$ , по сравнению с суммой квадратов ошибок, коэффициент $\lambda$ Контролирует относительную важность идей регуляризации. Обратите внимание, что обычно коэффициенты в регуляризаторе игнорируются. $w_0$ , так как его включение приводит к тому, что результаты зависят от выбора источника целевой переменной или могут включать коэффициенты $w_0$ , но включает в себя собственный коэффициент регуляризации (более подробно мы обсуждаем эту тему в разделе 5.5.1). Точно так же функция ошибок в (1.4) может быть минимизирована точно в замкнутой форме. Такие методы называются в статистической литературе методами сжатия, потому что они уменьшают значение коэффициентов. Особый случай квадратичных регуляризаторов называется гребневой регрессией. В контексте нейронных сетей этот подход называется уменьшением веса.

Figure 1.7

Рис. 1.7 Использование регуляризованной функции ошибок (1.4) для $\ln\lambda=-18$ и $\ln\lambda=0$ . без регуляризации $\lambda=0$ , соответствующий $\lambda=-\infty$ , как показано в правом нижнем углу рисунка 1.4.

На рис. 1.7 показан $M=9$ Результаты подгонки полинома порядка к тому же набору данных, что и раньше, но теперь с использованием регуляризованной функции ошибок, приведенной в (1.4). Мы видим, что для $\ln=-18$ , переобучение подавлено, и теперь у нас есть базисная функция $\sin(2\pi x)$ Более близкое представление о. Однако, если мы $\lambda$ Используя слишком большое значение, мы получаем очень плохое соответствие, как показано на рис. 1.7. $\ln\lambda=0$ Показано. В таблице 1.2 приведены соответствующие коэффициенты подобранных полиномов, показывающие, что регуляризация имеет желаемый эффект уменьшения величины коэффициентов.

Table 1.2.png

Таблица 1.2 $M=9$ Коэффициенты многочленов $w^*$ таблица параметров регуляризации $\lambda$ Ценность разная. Уведомление $\ln\lambda=-\infty$ модели без регуляризации соответствует график в правом нижнем углу рис. 1.4. Мы видим, что с $\lambda$ По мере увеличения значения типичный размер коэффициента становится меньше.

Влияние члена регуляризации на ошибку обобщения можно определить, нанеся на график значения RMSE (1.3) обучающей и тестовой выборок с $\ln\lambda$ Это видно из сравнительной диаграммы, как показано на рисунке 1.8. Мы обнаружили, что на самом деле $\lambda$ Теперь контролирует эффективную сложность модели и, таким образом, определяет степень переобучения.

Проблема сложности модели является важной и будет подробно обсуждаться в разделе 1.3. Здесь нам просто нужно отметить, что если мы попытаемся использовать этот метод минимизации функции ошибки для решения реальной проблемы, мы должны найти способ определить подходящее значение сложности модели. Приведенные выше результаты предлагают простой способ добиться этого путем разделения имеющихся данных на коэффициенты, используемые для определения $w$ Обучающий набор и используемый для оптимизации сложности модели ( $M$ или $\lambda$ ) для отдельного набора проверки (также известного как набор задержек). Однако во многих случаях это оказалось бы слишком расточительным использованием ценных обучающих данных, и мы должны использовать более сложные подходы.

Наше обсуждение подгонки полиномиальной кривой до сих пор в значительной степени полагалось на интуицию. Теперь мы ищем более принципиальный подход к проблемам распознавания образов, обсуждая теорию вероятностей. Помимо обеспечения основы почти для всех последующих разработок в этой книге, она также даст нам некоторые важные идеи, представленные в тексте CON о подборе полиномиальной кривой, и позволит нам распространить эти концепции на более сложные ситуации.

Figure 1.8

Рисунок 1.8 $M=9$ Среднеквадратическая ошибка полинома (1.3) такая же, как $\ln\lambda$ диаграмма отношений.