(Страница:4-7) 1.1 Аппроксимация полиномиальной кривой

искусственный интеллект

1.1.Пример: Аппроксимация полиномиальной кривой

   Сначала мы представим простую задачу регрессии, которую мы будем использовать в этой главе в качестве рабочего примера для обоснования некоторых ключевых понятий. Предположим, мы наблюдаем входную переменную с действительным знакомxx, мы хотим использовать это наблюдение, чтобы предсказать целевую переменную с действительным знакомttзначение . Поучительно рассмотреть искусственный пример с использованием синтетически сгенерированных данных, потому что тогда мы знаем точный процесс, с помощью которого были сгенерированы данные, так что можно сравнивать любые изученные модели. Данные для этого примера генерируются функциейsin(2x)sin(2x)и случайный шум, содержащийся в целевом значении, подробности см. в Приложении A.

N=10N = 10График обучающего набора данных точек, показанных синими кружками, каждая из которых включает входные переменные.xxи соответствующая целевая переменнаяttнаблюдаемое значение. Зеленая кривая показывает функцию, используемую для генерации данных.sin(2число Пиx)sin(2\pi x). Наша цель – предсказать некоторые новыеxxстоило тогоttценность.figure_1.2.png

   Теперь предположим, что у нас есть тренировочный набор, заданныйNNКусокxxСостав наблюдаемых значений , обозначенный какx(x1,...,xN)Tx \equiv (x_1,...,x_N)^T. На рис. 1.2 показано включениеN=10N=10График тренировочного набора точек данных. Входной набор данных на рисунке 1.2xxвыбравXnX_nгенерируется, когда значениеn=1,...,Nn = 1,...,N,существует[0,1][0,1]равномерно распределены в пределах диапазона, сначала оценивая функциюsin(2число Пиx)sin(2\pi x), затем добавьте в каждую такую ​​точку небольшой горизонтальный случайный шум с гауссовым распределением (обсуждается в разделе 1.2.4), чтобы получить соответствующее значениеtnt_n, чтобы получить целевой набор данныхtt, мы фиксируем свойство многих реальных наборов данных, заключающееся в том, что они имеют базовые закономерности, которые мы хотим понять, но отдельные наблюдения искажаются случайным шумом. Этот шум может возникать из-за изначально случайных (то есть случайных) процессов, таких как радиоактивный распад, но чаще он возникает из-за наличия источников изменчивости, которые сами по себе не наблюдаются.

   Наша цель — использовать этот обучающий набор для прогнозирования целевой переменнойttценность.xxвходная переменная. Как мы увидим позже, это подразумевает неявную попытку обнаружения лежащих в основе функций.sin(2число Пиx)sin(2\pi x). Это по своей сути сложная проблема, потому что мы должны обобщать ограниченный набор данных. Кроме того, наблюдения искажаются шумом, поэтому для данногоxxзаttСуществует неопределенность относительно подходящего значения . Теория принятия решений, обсуждаемая в разделе 1.2, позволяет нам использовать это вероятностное представление, чтобы делать оптимальные прогнозы на основе соответствующих критериев.

   Пока же мы обсудим это довольно неформально и рассмотрим более простые методы, основанные на подгонке кривой. В частности, мы будем использовать следующую форму как

y(x,w)=w0+w1x+w2x2+...+wMxM=j=0Mwjxj(1.1)y(x,w)=w_0+w_1x+w_2x^2+...+w_Mx^M=\sum^M_{j=0}w_jx^j\tag{1.1}

Полиномиальная функция соответствует данным, гдеMMпорядок многочлена,xjx^jвыражатьxxулучшить доjjсила . Полиномиальные коэффициентыw0,...,wMw_0,...,w_Mпо векторуwwсовместно выражены. изма, хотя полиномиальные функцииy(x,w)y(x,w)даxxнелинейная функция от , но коэффициентыwwЭто линейная функция. Функции, такие как многочлены, линейны по неизвестным параметрам и обладают важными свойствами, называемыми линейными моделями, которые будут подробно обсуждаться в главах 3 и 4.

Значения коэффициентов    будут определяться путем подгонки полинома к обучающим данным. Этого можно достичь с помощью функции минимальной ошибки, которая измеряет любое заданное значение.wwполучить функциюy(x,w)y(x,w)несовпадение с точками данных тренировочного набора. Простой выбор широко используемой функции ошибок заключается в том, что для каждой точки данныхxnx_nПрогнозy(xn,W)y(x_n,W)с соответствующим целевым значениемtnt_nсумма квадратов ошибок между , так что мы минимизируем

E(w)=12n=1N{y(xn,w)tn}2(1.2)E(w)=\frac{1}{2}\sum^N_{n=1}\{y(x_n,w)-t_n\}^2\tag{1.2}

Коэффициент 1/2 включен для удобства позже. Мы обсудим мотивацию выбора разностной функции позже в этой главе. А пока заметим только, что тогда и только тогда, когда функцияy(x,W)y(x,W)Ровно через каждую точку тренировочных данных он неотрицательная величина, она будет равна нулю. Геометрическая интерпретация функции ошибки суммы квадратов показана на рис. 1.3.

y(x,w)y(x,w)Половина суммы квадратов перемещений (показанных вертикальными зелеными полосами) для каждой точки данных в .figure_1.3.png

Exercise 1.1

   Мы можем выбратьE(w)E(w)как можно меньшеwwзначение для решения проблемы подбора кривой. Поскольку функцией ошибок является коэффициентwwКвадратичная функция от , производная которой по коэффициенту находится вwwлинейна по элементам , поэтому минимизация функции ошибок имеет единственное решение, заданное формулойw*w^*Представление, которое можно найти в закрытом виде. Результирующий полином задается функциейy(x,w*)y(x,w^*)Дается упражнение 1.1.

   Существует еще полиномиальный порядок выбораMMПроблема, как мы увидим, становится примером важного понятия, называемого сравнением моделей или выбором модели. На рис. 1.4 показаны четыреM=1,2,3,...,9M = 1,2,3,...,9Пример результатов полиномиальной подгонки к набору данных показан на рис. 1.2.

   Заметим постоянную(M=0)(M = 0)и первый заказ(M=1)(M = 1)Полином плохо соответствует данным, поэтому функцияsin(2число Пиx)sin(2\pi x)представительство слабое. третий порядок(M=3)(M = 3)Полиномы лучше всего подходят для функции в примере, показанном на рис. 1.4.sin(2число Пиx)sin(2\pi x). Когда мы используем многочлены более высокого порядка(M=9)(M = 9), мы получаем отличное соответствие обучающим данным. Фактически полином проходит точно через каждую точку данных,E(w*)=0E(w^*) = 0. Однако подобранная кривая сильно колеблется, функцияsin(2число Пиx)sin(2\pi x)представительство очень слабое. Последнее поведение называется переоснащением.

   Как мы упоминали ранее, наша цель — добиться хорошего обобщения, делая точные прогнозы на основе новых данных. Рассматривая отдельный тестовый набор, состоящий из 100 точек данных, мы можем получить хорошую пару производительности обобщения.MMНекоторое количественное понимание зависимости этих точек данных было получено с использованием той же процедуры, которая генерировала тренировочные заданные точки, но с новым выбором значений случайного шума, включенных в целевые значения. для каждогоMM, мы можем оценить данные обучающей выборки, приведенные в (1.2), дляE(w*)E(w^*)обучающие данные, а также может оценить производительность набора тестовых данныхE(w*)E(w^*). Иногда используйте

ERMS=2E(w*)/N(1.3)E_{RMS}=\sqrt{2E(w^*)/N}\tag{1.3}

Более удобно определить среднеквадратичную (RMS) ошибку, гдеNNРазделение позволяет нам сравнивать наборы данных разных размеров на равной основе, квадратный корень обеспечиваетERMSE_{RMS}с целевой переменнойttИзмеряется в той же шкале (и в тех же единицах). На рис. 1.5 показаны различныеMMСтоит пройти обучение и тестовые наборыRMSRMSКарта ошибок. Ошибка тестового набора — это мера того, насколько хорошо мы предсказываемxxновых данных наблюденийttКак насчет стоимости. Из рисунка 1.5 мы замечаем, чтоMMНебольшое значение дает относительно большое значение набора ошибок тестового набора, что может быть связано с тем, что соответствующий полином довольно негибкий и не может захватить функциюsin(2число Пиx)sin(2\pi x)колебание в.MMЗначение находится в диапазоне3M83\leq M\leq 8дает меньшие значения ошибки набора тестов, которые также дают функцию генератораsin(2число Пиx)sin(2\pi x)Разумное представление , как показано на рисунке 1.4M=3M = 3показана ситуация.

с разными уровнямиMMПолиномиальный график, показанный красной кривой, соответствует набору данных, показанному на рисунке 1.2.figure_1.4.png