Полное название PRML — распознавание образов и машинное обучение., которая является классической книгой в области машинного обучения.Введение в PRML см.:Заметки для чтения PRML 0 - слова, написанные впереди
Основные положения этой заметки заключаются в следующем.:
- терминология машинного обучения
- Подгонка полиномиальной кривой
- error function
- переоснащение
- набор проверки
1 Introduction
Первая глава многих книг на самом деле поверхностна, а первая глава PRMLно что-то, которая изящно задумана и использует пример для ознакомления с основными методами теории вероятностей, гауссовым распределением, байесовским методом, теорией принятия решений, теорией информации и т. д. на протяжении всей книги.
Прежде чем перейти к разделу 1.1, в книге рассказывается о некоторыхЗнание предвещает.
распознавание образов
Проблема поиска закономерностей в данных всегда была фундаментальной проблемой.. Например, в 16 веке Иоганн Кеплер открыл эмпирические закономерности движения планет, а в начале 20 века были открыты закономерности атомных спектров.
распознавание образовЭта область связана с использованием компьютерных алгоритмов.АвтообнаружениеПаттерны в данных и некоторые действия с обнаруженными паттернами, например, классификация данных.
Зачем использовать машинное обучение
Рассмотрим пример распознавания рукописных цифр, показанный на рис. 1.1. Каждое число соответствует изображению размером 28x28 пикселей, поэтомуможет быть представлен как вектор из 784 действительных чисел .
Цель распознавания рукописных цифрсостоит в том, чтобы построить компьютер, который может принимать такой векторВ качестве входных данных возьмите числа от 0 до 9 в качестве выходных.
Этот вопрос может использоватьНаписанные вручную правилаРешите, или в зависимости от формы штрихаэвристическийразличать числа, но на практике такой методплохой эффект, потому что это приведет к всплеску количества правил, а также потребует обработки многих исключений, которые не соответствуют правилам.
В то время как методы с использованием машинного обучения могут дать гораздо лучшие результаты.
срок
Познакомить с терминологией машинного обучения на примере распознавания рукописных цифр.
-
тренировочный набор: набор из N чиселНабор компонентов, используемых для настройки параметров модели. Реализация класса чисел в обучающем наборе известна с использованием целевого векторачтобы указать, что он представляет соответствующее количествоЭтикетка. Обратите внимание, что для каждого числасоответствует только одной метке, иОбычно аннотируется независимыми людьми.
-
Результат алгоритма машинного обучения: выражается в виде функции y(), он начинается с нового цифрового изображениядля ввода создайте вектор, в той же форме, что и целевой вектор.
-
Обучение: форма функции y(x) определяется на этапе обучения, также известном как этап обучения, на основе обучающих данных.
-
Тестовый набор: после того, как модель обучена, ее можно использовать для определения меток, соответствующих новым образцам, и набор этих новых образцов составляет тестовый набор.
-
Обобщение: способность правильно классифицировать новые образцы, которые отличаются от обучающего набора, называется обобщением. В практических приложениях обучающий набор содержит только все возможные входные данные.довольно маленькая порция,такОбобщение — центральная проблема распознавания образов..
-
Предварительно обработанный: для большинства практических приложений исходные входные векторы обычно предварительно обрабатываются и преобразуются в новое пространство переменных в надежде, что проблема может быть решена проще или быстрее в новом пространстве переменных. Предварительную обработку иногда называют извлечением признаков.
-
Обучение с учителем: Образцы обучающих данных содержат входные векторы и соответствующие целевые векторы.
-
Классификация: Распознавание цифр является примером этой проблемы, где цель состоит в том, чтобы назначить каждому входному вектору одну из конечного числа дискретных меток.
-
Регрессия: если требуемый результат состоит из одной или нескольких непрерывных переменных, то задача называется регрессией.
-
Неконтролируемое обучение: обучающие данные состоят из набора входных векторов.состав, без какой-либо соответствующей цели. Цель неконтролируемого обучения состоит в том, чтобы обнаружить группы похожих выборок в данных, известную как кластеризация, или определить распределение данных во входном пространстве, что называется оценкой плотности, или спроецировать данные из многомерного пространства. в двухмерное или трехмерное пространство, для визуализации данных.
-
Обучение с подкреплением (обучение с подкреплением): оно направлено на поиск подходящего действия для максимизации вознаграждения в заданных условиях. Уведомление,обучение с подкреплением метка не указана, должен быть найден в серии проб и ошибок, что отличается от обучения с учителем. Обсуждение обучения с подкреплением выходит за рамки PRML.
-
В этой книге используются три важных инструмента: теория вероятности, теория принятия решений и теория информации.
1.1 Пример: Аппроксимация полиномиальной кривой
Теперь официально входит в раздел 1.1 PRML,В этом разделе в основном используется пример заправки нити в иглу..
Обучающий набор
Данный обучающий набор состоит из N наблюдений неизвестной кривой:.
На рис. 1.2 показано изображение, состоящее из N = 10 точек данных, отмеченных синими кружками. Каждая точка данных состоит из наблюдения входной переменной x и соответствующей целевой переменной t, представленных зеленой кривой.Сгенерировано.
Почему синяя точка находится не точно на зеленой кривой? Потому что тренировочный набор генерируется так: поместите некоторые значения на зеленую кривуюДобавьте небольшой случайный шум с распределением Гаусса. , так что соответствующиеценность, то есть
тренировочная цель
цельне зная зеленой кривойдаВ случае для некоторого нового x предсказать соответствующее значение t,
Линейная модель
Соответствуйте данным с помощью полиномиальной функции формы:
где M - порядок полинома и коэффициенты полиномаобозначается как вектор.
Обратите внимание, что хотя полиномиальная функцияявляется нелинейной функцией x,но это линейная функция коэффициента w,НазываетсяЛинейная модель(подробно обсуждается в главах 3 и 4).
error function
векторЕго можно определить, подобрав обучающие данные, то есть минимизировав функцию ошибок. Функция ошибки измеряет для любого заданногозначение, функцияотличие от данных обучающей выборки. Широко используемая функция ошибок — это каждая точка данных.прогнозируемое значениес целевым значениемсумма площадей:
Вышеприведенная формула примерноквадратичная функция ,Градиент примернолинейная функция , поэтому можно найти единственное решениесделатьминимум.
Почему выбирают эту форму функции ошибки и почему не выбирают другие формы?
Причины такого выбора будут обсуждаться в последующих главах., а пока просто заметим, что она неотрицательна тогда и только тогда, когда функцияФункция ошибки равна нулю, когда для всех точек обучающих данных сделаны правильные прогнозы. иОн добавлен для удобства работы.
выбор модели
кроме коэффициентаКроме того, необходимо учитывать еще один параметр: как определить порядок M многочлена? Эта проблема также известна как сравнение моделей или выбор модели.
переоснащение
На рис. 1.4 мы представляем результаты 4 подобранных полиномов.
Как показано на рисунке 1.4:
-
Постоянные ( M = 0 ) и полиномы первого порядка ( M = 1 ) довольно плохо подходят к данным, что затрудняет представление функции.
-
Для M = 3 полином, по-видимому, дает парную функциюлучше всего подходит.
-
Когда М = 9, мы получаемдля обучающих данныхИдеальное соответствие , то есть полиномиальная функция точно проходит через каждую точку данных, но подобранная криваябольшие колебания,не может правильно выразить функции , такое поведение называетсяпереоснащение.
количественный анализ
Обычно, чтобы обнаружить влияние модели, мы находим набор данных с тем же распределением, что и обучающий набор для тестирования, а затем вычисляем разницу между обучающим набором и тестовым набором при разных выборах модели.ценность.
ошибка тренировочного набора и ошибка тестового набора
Подход: рассмотрим дополнительный набор тестов, состоящий из 100 данных. 100 точек данных генерируются точно так же, как и обучающий набор, но с другими значениями случайного шума, включенными в целевые значения.
Обратите внимание, что по мере изменения размера набора тестовМасштаб также меняется, поэтому лучше использовать среднеквадратичную (RMS) ошибку:
где деление на N гарантирует, что наборы данных разного размера сравниваются на одной основе, а квадратный корень гарантирует, чтоИзмеряется в той же шкале, что и целевая переменная t.
На рис. 1.5 показана среднеквадратическая ошибка обучающих и тестовых данных для разных значений M. Когда значение М равноКогда ошибка теста мала, для функции генератораТакже могут быть даны разумные симуляции.
Для случая М = 9 ошибка на обучающей выборке равна 0, как видно на рис. 1.4, ошибка тестирования становится очень большой, соответствующая функцияПоявились сильные вибрации.
Коэффициенты, соответствующие разным порядкам
Как показано в таблице 1.1:
Коэффициенты обычно увеличиваются с увеличением М. Для многочленов от M = 9 коэффициенты демонстрируют большие осцилляции.
Интуитивная причина в том, что: перенастраиваются более гибкие полиномы с большими значениями M,так что полином корректируется в соответствии со случайным шумом целевого значения.
решение для переоснащения
1. Увеличьте размер набора данных
Можно видеть, что для заданной сложности модели по мере увеличения размера набора данных проблема переобучения становится менее серьезной.
2. Байесовский метод
Количество параметров в настоящее время должно быть ограничено в зависимости от размера доступного обучающего набора, а не сложности модели, которая должна быть выбрана в зависимости от сложности решаемой задачи.
С байесовской точки зрения нет ничего сложного в ситуации, когда количество параметров модели превышает количество точек данных. Фактически, в байесовской модели эффективное количество параметров автоматически корректируется в соответствии с размером набора данных.
Переобучения можно избежать, используя байесовский подход.
В последующих главах PRML байесовский метод будет обсуждаться подробно.
3. Регуляризация
Штрафной член добавляется к функции ошибок уравнения 1.2, так что коэффициент не достигает большого значения.Простейшая форма представляет собой сумму квадратов всех коэффициентов.Измененная форма функции ошибок выглядит следующим образом:
в,Чем больше значение, тем больше влияние срока наказания, и наоборот.
Из таблицы 1.2 видно, что приПри изменении коэффициентов полинома с М = 9Значение также меняется. Примечание,это, регуляризации в это время нет, что соответствует правому нижнему углу рис. 1.4, параметру большие колебания. вместе сувеличивается, коэффициент постепенно становится меньше, то есть в игре идет штрафной срок.
Регуляризация в статистической литературе называется усадкой, потому что она уменьшает значение коэффициентов. Квадратичный правильный член называетсяridge regression, вызываемый в нейросетиweight decay.
Происхождение набора проверки
Если мы попытаемся решить прикладную задачу путем минимизации функции ошибки, то нам придется найти способ определить подходящее значение сложности модели.
Обычно имеющиеся данные разбиваются на обучающую выборку (используется для определения коэффициентов) и проверочный набор или отложенный набор (используется для определения сложности модели, M или)
Но это пустая трата обучающих данных, пришлось искать более продвинутый метод. (обсуждается в последующих главах)
Суммировать
Нынешняя дискуссия о подгонке кривых в значительной степени опирается на интуицию, поэтому необходимо найти более принципиальный подход к проблеме.
В качестве метода следует использовать теорию вероятностей, представленную в разделе 1.2..
Мало того, что теория вероятностей служит основой почти для всех последующих глав этой книги, она также позволяет нам глубже понять важные понятия, введенные в этой главе через проблему полиномиального подбора, и распространить эти понятия на более сложные ситуации.