10-11 (1.1 Пример: Аппроксимация полиномиальной кривой)

искусственный интеллект

   На данный момент, однако, полезно продолжить использование текущего метода и рассмотреть, как его можно применить на практике к наборам данных ограниченного размера, где мы можем захотеть использовать относительно сложные и гибкие модели. Одним из методов, часто используемых для контроля переобучения в этом контексте, является регуляризация, которая включает добавление штрафного члена к функции ошибок (1.2), чтобы привести коэффициенты к более высоким значениям. Простейший штрафной член этого типа принимает форму квадрата для всех коэффициентов, что приводит к корректирующей функции вида

E~(w)=12n=1N{y(xn,w)tn}2+λ2w2(1.4)\widetilde{E}(w)=\frac{1}{2}\sum_{n=1}^{N}\{y(x_n,w)-t_n\}^2+\frac{\lambda}{2}||w||^2\tag{1.4}

вw2wTw=w02+w12+...+wM2||w||^2\equiv w^Tw=w_0^2+w_1^2+...+w_M^2​, по сравнению с суммой квадратов ошибок, коэффициентλ\lambdaКонтролирует относительную важность идей регуляризации. Обратите внимание, что обычно коэффициенты в регуляризаторе игнорируются.w0w_0, так как его включение приводит к тому, что результаты зависят от выбора источника целевой переменной или могут включать коэффициентыw0w_0, но включает в себя собственный коэффициент регуляризации (более подробно мы обсуждаем эту тему в разделе 5.5.1). Точно так же функция ошибок в (1.4) может быть минимизирована точно в замкнутой форме. Такие методы называются в статистической литературе методами сжатия, потому что они уменьшают значение коэффициентов. Особый случай квадратичных регуляризаторов называется гребневой регрессией. В контексте нейронных сетей этот подход называется уменьшением веса.

Figure 1.7

Рис. 1.7 Использование регуляризованной функции ошибок (1.4) дляlnλ=18\ln\lambda=-18иlnλ=0\ln\lambda=0. без регуляризацииλ=0\lambda=0, соответствующийλ=\lambda=-\infty, как показано в правом нижнем углу рисунка 1.4.​

   На рис. 1.7 показанM=9M=9Результаты подгонки полинома порядка к тому же набору данных, что и раньше, но теперь с использованием регуляризованной функции ошибок, приведенной в (1.4). Мы видим, что дляln=18\ln=-18, переобучение подавлено, и теперь у нас есть базисная функцияsin(2число Пиx)\sin(2\pi x)Более близкое представление о. Однако, если мыλ\lambdaИспользуя слишком большое значение, мы получаем очень плохое соответствие, как показано на рис. 1.7.lnλ=0\ln\lambda=0Показано. В таблице 1.2 приведены соответствующие коэффициенты подобранных полиномов, показывающие, что регуляризация имеет желаемый эффект уменьшения величины коэффициентов.

Table 1.2.png

Таблица 1.2M=9M=9​Коэффициенты многочленовw*w^*таблица параметров регуляризацииλ\lambdaЦенность разная. Уведомлениеlnλ=\ln\lambda=-\inftyмодели без регуляризации соответствует график в правом нижнем углу рис. 1.4. Мы видим, что сλ\lambdaПо мере увеличения значения типичный размер коэффициента становится меньше.

Влияние члена регуляризации    на ошибку обобщения можно определить, нанеся на график значения RMSE (1.3) обучающей и тестовой выборок сlnλ\ln\lambdaЭто видно из сравнительной диаграммы, как показано на рисунке 1.8. Мы обнаружили, что на самом делеλ\lambdaТеперь контролирует эффективную сложность модели и, таким образом, определяет степень переобучения.

Проблема сложности    модели является важной и будет подробно обсуждаться в разделе 1.3. Здесь нам просто нужно отметить, что если мы попытаемся использовать этот метод минимизации функции ошибки для решения реальной проблемы, мы должны найти способ определить подходящее значение сложности модели. Приведенные выше результаты предлагают простой способ добиться этого путем разделения имеющихся данных на коэффициенты, используемые для определенияwwОбучающий набор и используемый для оптимизации сложности модели (MMилиλ\lambda​) для отдельного набора проверки (также известного как набор задержек). Однако во многих случаях это оказалось бы слишком расточительным использованием ценных обучающих данных, и мы должны использовать более сложные подходы.

   Наше обсуждение подгонки полиномиальной кривой до сих пор в значительной степени полагалось на интуицию. Теперь мы ищем более принципиальный подход к проблемам распознавания образов, обсуждая теорию вероятностей. Помимо обеспечения основы почти для всех последующих разработок в этой книге, она также даст нам некоторые важные идеи, представленные в тексте CON о подборе полиномиальной кривой, и позволит нам распространить эти концепции на более сложные ситуации.

Figure 1.8

Рисунок 1.8M=9M=9Среднеквадратическая ошибка полинома (1.3) такая же, какlnλ\ln\lambdaдиаграмма отношений.