1.1.Пример: Аппроксимация полиномиальной кривой
Сначала мы представим простую задачу регрессии, которую мы будем использовать в этой главе в качестве рабочего примера для обоснования некоторых ключевых понятий. Предположим, мы наблюдаем входную переменную с действительным знаком, мы хотим использовать это наблюдение, чтобы предсказать целевую переменную с действительным знакомзначение . Поучительно рассмотреть искусственный пример с использованием синтетически сгенерированных данных, потому что тогда мы знаем точный процесс, с помощью которого были сгенерированы данные, так что можно сравнивать любые изученные модели. Данные для этого примера генерируются функциейи случайный шум, содержащийся в целевом значении, подробности см. в Приложении A.
График обучающего набора данных точек, показанных синими кружками, каждая из которых включает входные переменные.и соответствующая целевая переменнаянаблюдаемое значение. Зеленая кривая показывает функцию, используемую для генерации данных.. Наша цель – предсказать некоторые новыестоило тогоценность.
Теперь предположим, что у нас есть тренировочный набор, заданныйКусокСостав наблюдаемых значений , обозначенный как. На рис. 1.2 показано включениеГрафик тренировочного набора точек данных. Входной набор данных на рисунке 1.2выбравгенерируется, когда значение,существуетравномерно распределены в пределах диапазона, сначала оценивая функцию, затем добавьте в каждую такую точку небольшой горизонтальный случайный шум с гауссовым распределением (обсуждается в разделе 1.2.4), чтобы получить соответствующее значение, чтобы получить целевой набор данных, мы фиксируем свойство многих реальных наборов данных, заключающееся в том, что они имеют базовые закономерности, которые мы хотим понять, но отдельные наблюдения искажаются случайным шумом. Этот шум может возникать из-за изначально случайных (то есть случайных) процессов, таких как радиоактивный распад, но чаще он возникает из-за наличия источников изменчивости, которые сами по себе не наблюдаются.
Наша цель — использовать этот обучающий набор для прогнозирования целевой переменнойценность.входная переменная. Как мы увидим позже, это подразумевает неявную попытку обнаружения лежащих в основе функций.. Это по своей сути сложная проблема, потому что мы должны обобщать ограниченный набор данных. Кроме того, наблюдения искажаются шумом, поэтому для данногозаСуществует неопределенность относительно подходящего значения . Теория принятия решений, обсуждаемая в разделе 1.2, позволяет нам использовать это вероятностное представление, чтобы делать оптимальные прогнозы на основе соответствующих критериев.
Пока же мы обсудим это довольно неформально и рассмотрим более простые методы, основанные на подгонке кривой. В частности, мы будем использовать следующую форму как
Полиномиальная функция соответствует данным, гдепорядок многочлена,выражатьулучшить досила . Полиномиальные коэффициентыпо векторусовместно выражены. изма, хотя полиномиальные функцииданелинейная функция от , но коэффициентыЭто линейная функция. Функции, такие как многочлены, линейны по неизвестным параметрам и обладают важными свойствами, называемыми линейными моделями, которые будут подробно обсуждаться в главах 3 и 4.
Значения коэффициентов будут определяться путем подгонки полинома к обучающим данным. Этого можно достичь с помощью функции минимальной ошибки, которая измеряет любое заданное значение.получить функциюнесовпадение с точками данных тренировочного набора. Простой выбор широко используемой функции ошибок заключается в том, что для каждой точки данныхПрогнозс соответствующим целевым значениемсумма квадратов ошибок между , так что мы минимизируем
Коэффициент 1/2 включен для удобства позже. Мы обсудим мотивацию выбора разностной функции позже в этой главе. А пока заметим только, что тогда и только тогда, когда функцияРовно через каждую точку тренировочных данных он неотрицательная величина, она будет равна нулю. Геометрическая интерпретация функции ошибки суммы квадратов показана на рис. 1.3.
Половина суммы квадратов перемещений (показанных вертикальными зелеными полосами) для каждой точки данных в .
Exercise 1.1
Мы можем выбратькак можно меньшезначение для решения проблемы подбора кривой. Поскольку функцией ошибок является коэффициентКвадратичная функция от , производная которой по коэффициенту находится влинейна по элементам , поэтому минимизация функции ошибок имеет единственное решение, заданное формулойПредставление, которое можно найти в закрытом виде. Результирующий полином задается функциейДается упражнение 1.1.
Существует еще полиномиальный порядок выбораПроблема, как мы увидим, становится примером важного понятия, называемого сравнением моделей или выбором модели. На рис. 1.4 показаны четыреПример результатов полиномиальной подгонки к набору данных показан на рис. 1.2.
Заметим постояннуюи первый заказПолином плохо соответствует данным, поэтому функцияпредставительство слабое. третий порядокПолиномы лучше всего подходят для функции в примере, показанном на рис. 1.4.. Когда мы используем многочлены более высокого порядка, мы получаем отличное соответствие обучающим данным. Фактически полином проходит точно через каждую точку данных,. Однако подобранная кривая сильно колеблется, функцияпредставительство очень слабое. Последнее поведение называется переоснащением.
Как мы упоминали ранее, наша цель — добиться хорошего обобщения, делая точные прогнозы на основе новых данных. Рассматривая отдельный тестовый набор, состоящий из 100 точек данных, мы можем получить хорошую пару производительности обобщения.Некоторое количественное понимание зависимости этих точек данных было получено с использованием той же процедуры, которая генерировала тренировочные заданные точки, но с новым выбором значений случайного шума, включенных в целевые значения. для каждого, мы можем оценить данные обучающей выборки, приведенные в (1.2), дляобучающие данные, а также может оценить производительность набора тестовых данных. Иногда используйте
Более удобно определить среднеквадратичную (RMS) ошибку, гдеРазделение позволяет нам сравнивать наборы данных разных размеров на равной основе, квадратный корень обеспечиваетс целевой переменнойИзмеряется в той же шкале (и в тех же единицах). На рис. 1.5 показаны различныеСтоит пройти обучение и тестовые наборыКарта ошибок. Ошибка тестового набора — это мера того, насколько хорошо мы предсказываемновых данных наблюденийКак насчет стоимости. Из рисунка 1.5 мы замечаем, чтоНебольшое значение дает относительно большое значение набора ошибок тестового набора, что может быть связано с тем, что соответствующий полином довольно негибкий и не может захватить функциюколебание в.Значение находится в диапазонедает меньшие значения ошибки набора тестов, которые также дают функцию генератораРазумное представление , как показано на рисунке 1.4показана ситуация.
с разными уровнямиПолиномиальный график, показанный красной кривой, соответствует набору данных, показанному на рисунке 1.2.