обобщение модели

глубокое обучение

Участвуйте в 16-м дне Ноябрьского испытания обновлений, узнайте подробности события:Вызов последнего обновления 2021 г.

Обобщающая способность модели

Цель машинного обучения — обнаруживать закономерности.

Поэтому необходимо определить, действительно ли модель нашла закономерность обобщения или просто запомнила данные.

Позвольте мне рассказать вам небольшую историю: мы участвовали в конкурсе на первом курсе и написали распознавание языка с помощью машинного обучения, хотя показатель точности был очень низким, всего 50%. В то время судья конкурса не поверил, что это было написано с помощью машинного обучения, и настоял на том, чтобы мы написали сравнение баз данных...

В чем разница между обобщением и запоминанием данных?

Это все равно, что дать двум ученикам AB стопку математических материалов для изучения. На финальном экзамене, если задан исходный вопрос, оба могут ответить на 100 баллов, нельзя сказать, хороши они или плохи. Но если вопрос задается повторно и А не проходит B90, то вы можете быть уверены: А просто запоминает исходный вопрос наизусть, а Б действительно понимает идею решения проблемы.

А — запоминать данные, Б — обобщать.

Ошибка обучения и ошибка обобщения

Ошибка обучения — это ошибка, которую наша модель вычисляет в наборе обучающих данных.

Ошибка обобщения — это ожидаемая ошибка нашей модели, когда мы применяем ее к бесконечному количеству выборок данных, также взятых из распределения исходных выборок.

Мы не можем точно рассчитать ошибку обобщения, потому что вы никогда не можете знать, сколько баллов вы наберете за неизвестный вопрос итогового экзамена.

Сложность модели

Учебные образцы можно понимать как объем учебного материала, который вам дается. Размер модели можно понимать как вашу способность запоминать задачу. Помните, что это способность к запоминанию, а не к пониманию. Теперь можно считать, чтоСпособность читать+Понимание=1Способность к чтению + способность к пониманию = 1. Когда вся ваша энергия уходит на запоминание темы, у вас нет времени позаботиться о ее понимании.

Когда наши обучающие выборки и размер модели совпадают, мы можем сблизить ошибку обучения и ошибку обобщения.

Но когда модель слишком сложна и выборок мало, мы ожидаем, что ошибка обучения уменьшится, а ошибка обобщения увеличится. (переоснащение)

Это эквивалентно тому, что вам нужно запомнить все вопросы и очень хорошо ответить на исходные вопросы. Но способность к пониманию оставляет желать лучшего, и вы получите очень низкий балл, если не ответите на первоначальный вопрос.

Факторы, влияющие на обобщение модели

  1. Количество регулируемых параметров. Когда количество настраиваемых параметров велико, модель легче переобучается.
  2. Значение, которое принимает параметр. Когда веса имеют более широкий диапазон значений, модель может быть более склонна к переоснащению.
  3. Количество обучающих выборок. Даже если ваша модель проста, набор данных легко переобучить только одной или двумя выборками. Для переобучения набора данных с миллионами выборок требуется чрезвычайно гибкая модель.

Уменьшить разницу между ошибкой обучения и ошибкой обобщения

Преодоление разрыва между обучением и тестированием производительности. На самом деле, в реальности мы должны подумать, как предотвратить переобучение при недообучении и переобучении. Таким образом, заголовок можно изменить на «Как предотвратить переоснащение».

  • По количеству регулируемых параметров:

    Чем больше количество настраиваемых параметров, тем сложнее модель. Упрощение модели заключается в том, что она имеет меньшие размеры. При выборе модели выбирайте модель подходящего размера.

  • Количество обучающих выборок. Это то же самое, что и первое, выбирая подходящую модель для размера обучающей выборки.

  • Значение, которое принимает параметр:

    Другое упрощение заключается в ограничении диапазона значений параметра, что предполагает регуляризацию.

    Практическое глубокое обучение 4.5 Регуляризация Вывод весовой регрессии(Вот почему обобщение модели было написано сегодня для удобства.)

  • Добавлено: Есть еще один аспект, который заключается в сохранении плавности, т.е. функция не должна быть чувствительной к небольшим изменениям ее ввода. которыйОтсев из Deep Learning 4.6 на практике


Подробнее о серии «Практическое глубокое обучение» см. здесь:«Практическое глубокое обучение» — Колонка LolitaAnn — Nuggets (juejin.cn)

Заметки все еще обновляются......