Предисловие:
Модель машинного обучения состоит в том, чтобы подавать большой объем данных в модель, и модель будет постоянно корректировать свои параметры в соответствии с данными и, наконец, иметь возможность различать закономерности или характеристики этих данных. Если модель не может хорошо обучаться на этих данных, она считается неподходящей. Если модель достигает хороших результатов во время обучения, но плохо работает при тестировании на данных, которые не участвовали в обучении, она считается переоснащенной.
В этой статье будут представлены концепции, характеристики, причины и решения недообучения и переобучения. Внимательно прочитав эту статью, читатель получит полное представление о недообучении и переоснащении.
Обратите внимание на техническое руководство по общедоступной учетной записи CV и своевременно получайте больше обзорных статей о технологиях компьютерного зрения.
Понятие недообучения и переобучения
В процессе обучения модели мы обычно хотим достичь следующих двух целей:
1. Потери при обучении минимальны.
2. Разрыв между значением потерь при обучении и значением потерь при тестировании должен быть как можно меньше.
Когда первая цель не достигается, это означает, что модель не была хорошо обучена, модель недостаточно сильна, чтобы различать шаблоны или особенности данных, и считается, что она не соответствует требованиям.
Когда первая цель достигнута, а вторая не достигнута, это означает, что обучение модели дало хороший эффект, а значение потерь теста относительно велико, что означает, что производительность модели на новых данных низкая. очень плохо В настоящее время модель можно рассматривать как Модель переоснащена, когда она переоснащает данные обучения, но не имеет хорошей способности различения или подгонки для данных, которые не участвовали в обучении.
Чтобы проиллюстрировать на простом примере:
Предположим, ваша семья устраивает вам свидание вслепую и сообщает, что женщина ждет вас в определенном ресторане.
Если ваша семья говорит вам, что женщина носит юбку и длинные волосы убраны в шаль. В итоге заходишь и обнаруживаешь что есть несколько поз девушек в юбках и шалях с длинными волосами.В данный момент ты не можешь судить какая именно.Это показывает что ты недостаточно знаешь о характеристиках девушек, и они недооценивают.
Если ваша семья говорит вам, что женщина носит юбку, шляпу, длинные волосы на шали, чехол для мобильного телефона — это Дораэмон, а в уголке брови есть родинка. В результате женщине показалось, что в ресторане слишком жарко, поэтому вскоре после входа в ресторан она сняла шляпу.После того, как вы вошли, вы обнаружили, что там была девушка, которая выполнила все остальные условия, кроме того, что она не t носить шляпу.Поэтому вы решили, что она не была вашим свиданием вслепую, а это значит, что у знакомой вам девушки слишком много черт, и по немного другой особенности вы делаете неправильное суждение, которое является переобучением.
Если кто-то из вашей семьи скажет вам, что женщина носит юбку, у нее длинные волосы, убранные в шаль, и родинка в уголке брови. Когда вы входите, вы обнаруживаете, что хотя несколько человек в юбках и многие люди с длинными волосами на плечах, только та, у которой родинка в уголке брови, носит шляпу, но она не чтобы вы не думали, что она ваша свидание вслепую Возразите, поэтому вы подходите прямо к ней и начинаете неловкий обмен мнениями, который является разумным подходом.
В данном примере юбки, шали и длинные волосы — общие характеристики девушек, сочетание родинок в уголках бровей и сочетание юбок, шалей и длинных волос — ее уникальные характеристики, чехлы для телефонов и ношение шляп — случайные характеристики, не из-за нее Ты не узнаешь человека, если поменяешь чехол для телефона или не наденешь шляпу. Переоснащение — это использование случайных признаков в качестве признака идентичности, а недообучение — недостаточное количество признаков для понимания, а обучаемость модели представления в машинном обучении недостаточна для изучения достаточного количества признаков данных.
Характеристики недообучения: значение потерь при обучении велико, а значение потерь при тестировании также велико.
Характеристики переобучения: значение потерь обучения достаточно мало, а значение потерь теста велико.
Для модели или нейронной сети с достаточной сложностью или достаточными параметрами она будет проходить через процесс «недостаточная-умеренная-подгонка-переобучение» по мере обучения.
Для модели с недостаточной сложностью или нейронной сети со слишком малым количеством параметров происходит только недообучение.
Причины и решения недообучения
По характеристикам недобора можно выделить две основные причины недоподгонки:
1. Недостаточная мощность или сложность модели.Для нейронной сети недостаточно количества параметров или сеть слишком проста, и нет хорошей возможности извлечения признаков. Обычно, чтобы избежать переобучения модели, добавляется регуляризация.Когда штраф за регуляризацию слишком высок, способность модели извлекать признаки будет недостаточной.
2. Объем обучающих данных слишком мал или количество итераций обучения слишком мало, в результате чего модель не изучает достаточно признаков.
Согласно анализу причин недообучения, есть два пути решения:
1. Перейти на более сложную модель.Для нейронных сетей перейдите на сеть с сильными возможностями извлечения признаков или с большим количеством параметров. Или уменьшить штраф за регуляризацию.
2. Увеличьте количество итераций или найдите способ получить достаточно обучающих данных или найдите способ изучить достаточно признаков из небольшого количества данных. Например, умеренно возрастающая эпоха, увеличение данных, предварительное обучение, трансферное обучение, обучение на малых выборках, обучение без учителя и т. д.
Причины и решения переобучения
Согласно характеристикам переобучения, существует четыре причины переобучения:
1. Модель слишком сложная.Для нейронной сети слишком много параметров или слишком сильная способность извлечения признаков, и модель усвоила некоторые случайные признаки.
2. Распределение данных слишком единичное. Например, все птицы, используемые для обучения, находятся в клетках. Модель может легко использовать клетку в качестве признака для идентификации птиц.
3. В данных слишком много шума или слишком много мешающей информации. Например, при распознавании лиц разрешение тренировочного изображения составляет сотни на сотни, а лицо занимает от десятков до сотен пикселей. В это время фон слишком большой Фоновая информация относится к информации о помехах или шуме.
4. Слишком много итераций обучения, а повторное обучение на данных также позволит модели изучить случайные признаки.
В зависимости от причин переобучения есть четыре решения:
1. Перейти на менее сложную модель или регуляризацию.Для нейронных сетей используйте сеть с меньшим количеством параметров или используйте регуляризацию.
2. Использовать для обучения данные из разных дистрибутивов. Например, увеличение данных, предварительное обучение и т. д.
3. Предварительно обработайте изображение, используя такие методы, как обрезка изображения.
4. Немедленно прекратите тренировку. Как понять, что пора прекращать тренировки? При использовании K-кратной перекрестной проверки, если потери при обучении все еще уменьшаются, а потери при проверке начинают увеличиваться, это означает, что начинает происходить переобучение.
Другие статьи
Краткое изложение методов оптимизации функций
Краткое изложение методов увеличения данных
Краткое описание технологии визуализации CNN
Резюме эволюции структуры CNN - классическая модель
Резюме эволюции структуры CNN - облегченная модель
Резюме эволюции структуры CNN - принципы проектирования
Краткое изложение технологии объединения
Сводка по немаксимальному подавлению
Краткое изложение методов чтения английской литературы
Краткое изложение общих идей бумажных инноваций
Эта статья взята из серии технических резюме технического руководства по общедоступному аккаунту CV.