Рекламный дисплей моего веб-сайта лучше, добро пожаловать в гости:Мистер Лу.info/machine- сейчас...
Ранее мы обсуждали использование линейной регрессии для моделирования набора данных, Реальный сценарий применения машинного обучения состоит в том, чтобы сделать параметры, изученные алгоритмом, вновые входные данные, ранее не наблюдаемыеОн по-прежнему точно предсказывает, а не только на тренировочном наборе. Способность хорошо работать с новыми входными данными называется обобщением.
Чтобы проверить способность модели к обобщению, мы обычно делим небольшую часть данных из обучающего набора в качестве тестового набора.Тестовый набор не участвует в обучении модели, а используется только для проверки производительности обученной модели на новых данных.
Тогда оптимизационное решение линейной регрессии, которое мы обсуждали ранее, на самом деле минимизирует ошибку обучающего набора:
Фактически, чтобы измерить способность модели к обобщению, мы ориентируемся на ошибку модели на тестовом наборе:
В предыдущем примере мы использовали обучающий набор данных для оптимизации, и цель оптимизации состояла в том, чтобы уменьшить ошибку модели на обучающем наборе. Однако машинное обучение — это не просто проблема оптимизации, потому что в некоторых случаях, хотя мы можем оптимизировать модель до небольшой ошибки на обучающем наборе, модель, вероятно, будет очень хорошо обобщать новые входные данные.
Давайте создадим некоторые тренировочные данные и позволим тренировочным данным имитировать тенденцию квадратичной функции изгибаться вверх. Линейная регрессия используется в крайнем левом углу рисунка.Чтобы соответствовать набору данных, эта модель не может фиксировать информацию о кривизне в наборе данных, существуетНедооснащениевозможный. Средний график добавляет квадратичный член, используяПодгонка эквивалентна добавлению одномерных признаков.Чем больше мы добавляем признаков, тем лучше эффект подгонки. Однако добавление слишком большого количества функций также может иметь неблагоприятные последствия.Самый правый рисунок — это использование полинома пятой степени.подходить. В конце концов, модель точно соответствует каждой точке, но не учитывает тенденцию кривизны данных, которая возникает, когдаПереоснащение. Другими словами, модель в середине имеет лучшую способность к обобщению, а модели слева и справа имеют среднюю способность к обобщению.
Большой проблемой в области машинного обучения является то, как бороться с недообучением и переоснащением. Мы должны учитывать:
- Уменьшите ошибку модели на тренировочном наборе.
- Сократите разрыв между ошибкой обучающего набора и ошибкой тестового набора.
Регулируя мощность модели, мы можем контролировать, будет ли модель смещена в сторону переобучения или недообучения. Вместимость модели относится к ее способности выполнять различные функции.Модель с низкой емкостью трудно вписать в тренировочный набор, а модель с высокой емкостью может переполнить. Одним из способов управления емкостью является выбор математической модели для моделирования набора данных. Например, в предыдущем примере левый график использует функцию линейной регрессии, которая предполагает, что выход и вход являются линейными; средний и правый график используют обобщенную линейную регрессию, которая включает квадратичные члены, кубические члены и т. д. увеличивает мощность модели. Когда другие условия остаются неизменными, модели глубокого обучения обычно имеют большую емкость, чем модели линейной регрессии.
Алгоритмы машинного обучения работают лучше всего, когда их мощность соответствует сложности выполняемой задачи и количеству предоставляемых обучающих данных. Но то, как определить оптимальную мощность, на самом деле не очень хороший метод, особенно определение мощности моделей глубокого обучения очень сложно.
использованная литература
- Эндрю Нг: Конспект лекций CS229
- Ian Goodfellow and Yoshua Bengio and Aaron Courville: Deep Learning