Емкость, недообучение и переоснащение моделей машинного обучения

машинное обучение

Рекламный дисплей моего веб-сайта лучше, добро пожаловать в гости:Мистер Лу.info/machine- сейчас...

Ранее мы обсуждали использование линейной регрессии для моделирования набора данных, Реальный сценарий применения машинного обучения состоит в том, чтобы сделать параметры, изученные алгоритмом, вновые входные данные, ранее не наблюдаемыеОн по-прежнему точно предсказывает, а не только на тренировочном наборе. Способность хорошо работать с новыми входными данными называется обобщением.

Чтобы проверить способность модели к обобщению, мы обычно делим небольшую часть данных из обучающего набора в качестве тестового набора.Тестовый набор не участвует в обучении модели, а используется только для проверки производительности обученной модели на новых данных.

Тогда оптимизационное решение линейной регрессии, которое мы обсуждали ранее, на самом деле минимизирует ошибку обучающего набора:

\frac{1}{2}(f(\boldsymbol{x_i}^{train})-y_i^{train})^2

Фактически, чтобы измерить способность модели к обобщению, мы ориентируемся на ошибку модели на тестовом наборе:

\frac{1}{2}(f(\boldsymbol{x_i}^{test})-y_i^{test})^2

В предыдущем примере мы использовали обучающий набор данных для оптимизации, и цель оптимизации состояла в том, чтобы уменьшить ошибку модели на обучающем наборе. Однако машинное обучение — это не просто проблема оптимизации, потому что в некоторых случаях, хотя мы можем оптимизировать модель до небольшой ошибки на обучающем наборе, модель, вероятно, будет очень хорошо обобщать новые входные данные.

线性、二次、五次线性回归的拟合二次曲线效果 来源:Andrew Ng CS229

Давайте создадим некоторые тренировочные данные и позволим тренировочным данным имитировать тенденцию квадратичной функции изгибаться вверх. Линейная регрессия используется в крайнем левом углу рисунка.y = w_0 + w_1xЧтобы соответствовать набору данных, эта модель не может фиксировать информацию о кривизне в наборе данных, существуетНедооснащениевозможный. Средний график добавляет квадратичный член, используяy = w_0 + w_1x + w_2x^2Подгонка эквивалентна добавлению одномерных признаков.Чем больше мы добавляем признаков, тем лучше эффект подгонки. Однако добавление слишком большого количества функций также может иметь неблагоприятные последствия.Самый правый рисунок — это использование полинома пятой степени.y = \sum^5_{j=0} w_jx^jподходить. В конце концов, модель точно соответствует каждой точке, но не учитывает тенденцию кривизны данных, которая возникает, когдаПереоснащение. Другими словами, модель в середине имеет лучшую способность к обобщению, а модели слева и справа имеют среднюю способность к обобщению.

Большой проблемой в области машинного обучения является то, как бороться с недообучением и переоснащением. Мы должны учитывать:

  • Уменьшите ошибку модели на тренировочном наборе.
  • Сократите разрыв между ошибкой обучающего набора и ошибкой тестового набора.

Регулируя мощность модели, мы можем контролировать, будет ли модель смещена в сторону переобучения или недообучения. Вместимость модели относится к ее способности выполнять различные функции.Модель с низкой емкостью трудно вписать в тренировочный набор, а модель с высокой емкостью может переполнить. Одним из способов управления емкостью является выбор математической модели для моделирования набора данных. Например, в предыдущем примере левый график использует функцию линейной регрессии, которая предполагает, что выход и вход являются линейными; средний и правый график используют обобщенную линейную регрессию, которая включает квадратичные члены, кубические члены и т. д. увеличивает мощность модели. Когда другие условия остаются неизменными, модели глубокого обучения обычно имеют большую емкость, чем модели линейной регрессии.

容量与误差之间的关系 来源:Deep Learning

Алгоритмы машинного обучения работают лучше всего, когда их мощность соответствует сложности выполняемой задачи и количеству предоставляемых обучающих данных. Но то, как определить оптимальную мощность, на самом деле не очень хороший метод, особенно определение мощности моделей глубокого обучения очень сложно.

использованная литература

  1. Эндрю Нг: Конспект лекций CS229
  2. Ian Goodfellow and Yoshua Bengio and Aaron Courville: Deep Learning