6-7 (1.1 Пример: Аппроксимация полиномиальной кривой)

искусственный интеллект

   Мы можем выбратьE(w)E(w)как можно меньшеwwдля решения задачи подбора кривой. Поскольку функция ошибок является коэффициентомwwКвадратичная функция от , производная которой по коэффициентам равнаwwлинейна по элементам, поэтому минимизация функции ошибок имеет единственное решение, используяw*w^*представляет , который можно найти в закрытом виде. Результирующий полином задается функциейy(x,w*)y(x,w^*)данный.

   Существует еще полиномиальный порядок выбораMM, который, как мы увидим, станет примером важного понятия, называемого сравнением моделей и выбором модели. На рис. 1.4 показаны четыреM=0,1,2,3,9M=0,1,2,3,9Пример результатов полиномиальной подгонки к набору данных показан на рис. 1.2.

   Заметим постоянную(M=0)(M=0)и первый заказ(M=1)(M=1)Полином плохо соответствует данным, поэтому функцияsin(2число Пиx)\sin(2\pi x)представительство слабое. третий заказ(M=3)(M=3)Полином лучше всего подходит для функции в примере, показанном на рис. 1.4.sin(2число Пиx)\sin(2\pi x). Когда мы используем многочлены более высокого порядка(M=9)(M=9), мы получили отличное соответствие тренировочным данным. Фактически полином проходит точно через каждую точку данных,E(w*)=0E(w^*)=0. Однако подобранная кривая сильно колеблется, и функцияsin(2число Пиx)\sin(2\pi x)производительность очень плохая. Последнее поведение называется переоснащением.

   Как мы упоминали ранее, наша цель — добиться хорошего обобщения, делая точные прогнозы на основе новых данных. Рассматривая отдельный тестовый набор, состоящий из 100 точек данных, мы можем получить хорошую пару производительности обобщения.MMНекоторые количественные данные о допуске точек данных были получены с использованием той же процедуры, которая генерировала точки набора данных, но с новым выбором значений случайного шума, включенных в целевые значения. для каждогоMM, мы можем оценить обучающие данные, приведенные в (1.2), дляE(W*)E(W^*)Остаточные значения, которые также можно оценить для тестового набора данныхE(w*)E(w^*). Иногда удобнее использовать среднеквадратичную (RMS) ошибку, определяемую формулой

ERMS=2E(w*)/N(1.3)E_{RMS}=\sqrt{2E(w^*)/N} \tag{1.3}

в,NNРазделение позволяет нам сравнивать наборы данных разных размеров на равной основе, квадратный корень обеспечиваетERMSE_{RMS}с целевой переменнойttИзмеряется по одной шкале (и в одних и тех же единицах). Рисунок 1.5 показывает разницуMMГрафик обучения и тестового набора среднеквадратических ошибок при значениях. Ошибка тестового набора — это мера того, насколько хорошо мы предсказываемxxновых данных наблюденийttНасколько он хорош с точки зрения стоимости. Заметим из рис. 1.5, что меньшие значения M дают относительно большие пары значений ошибок тестового множества, что можно объяснить тем, что соответствующие полиномы достаточно негибки и не могут уловить функциюsin(2число Пиx)\sin(2\pi x)шок. Значение М равно3M83\leq M \leq 8дает малое значение ошибки на тестовом наборе, что также дает производящую функциюsin(2число Пиx)\sin(2\pi x)Разумное представление , из рис. 1.4 видно, что дляM=3M=3Случай.

Figure 1.4

Рисунок 1.4 Различные заказыMMПолиномиальный график, показанный красной кривой, соответствует набору данных на рис. 1.2.

Figure 1.5

Рисунок 1.5. Среднеквадратическая ошибка, определяемая (1.3) на обучающей выборке и независимой тестовой выборкеMMразличных значений .