Участвуйте в 16-м дне Ноябрьского испытания обновлений, узнайте подробности события:Вызов последнего обновления 2021 г.
пойматьобобщение моделиДополнительная «гладкость».
Гладкость, т.е. функция не должна быть чувствительна к небольшим изменениям на входе.
то естьХорошая модель должна быть устойчивой к возмущениям входных данных. Он делится на следующие два аспекта.
1. Использование зашумленных данных эквивалентно тихоновской регуляризации.
В 1995 году Кристофер Бишоп доказал, что обучение с входным шумом эквивалентно тихоновской регуляризации.Neural Networks for Pattern Recognition
]
7.5 главы 7 глубокого обучения: для некоторых моделей добавление шума с минимальной дисперсией к входным данным эквивалентно наложению штрафа за норму на веса (Bishop, 1995a, b).
-
Тихоновская регуляризация (Тихоновская регуляризация)
Функция стоимости как метод наименьших квадратовУлучшение, Тихонов предложил в 1963 году использовать регуляризованную функцию стоимости наименьших квадратов
в формуленазываются параметрами регуляризации.
-
То есть добавление очень небольшого шума к входу можно рассматривать как суммуРегуляризация такая же. То есть содержание предыдущего раздела см.:Практическое глубокое обучение 4.5, регуляризация, распад веса — самородки (juejin.cn)
2. Метод исключения: добавление шума между слоями
Как правило, устойчивость выше, когда к скрытым единицам добавляется шум. Добавление шума к скрытому юниту — основное направление развития алгоритма Dropout.
В 2014 г. Шривастава и др. [Dropout: a simple way to prevent neural networks from overfitting
] Объедините идеи Бишопа и примените их к внутренним слоям сети. Во время обучения шум вводится в каждый слой сети перед вычислением последующих слоев. Они поняли, что при обучении глубокой сети с несколькими слоями введение шума только повышает плавность отображения ввода-вывода.
Этот метод называется отсевом, потому что мы якобы отбрасываем некоторые нейроны во время обучения. На каждой итерации в процессе обучения отсев состоит из обнуления некоторых узлов в текущем слое перед вычислением следующего слоя.
На каждой итерации обучения генерируется точка возмущения. и запросить. (Е - ожидание)
При стандартной регуляризации отсева каждый слой устраняется путем нормализации по количеству узлов, которые сохраняются (не удаляются). Следующее:
По замыслу ожидаемое значение остается прежним, т.е..
Например:
Отсев на практике:
По замыслу ожидаемое значение остается прежним, т.е..
Например:
Отсев на практике:
Когда мы применяем выпадение к скрытому слою, чтобыКогда вероятность установки скрытых единиц равна нулю, результат можно рассматривать как сеть, содержащую только подмножество исходных нейронов. На изображении ниже удаленои. Следовательно, вычисление результата больше не зависит отили, и их соответствующие градиенты также исчезают при выполнении обратного распространения. Таким образом, вычисление выходного слоя не может быть чрезмерно зависимым отлюбой элемент из .
"Уровень отчисления"
Подробнее о серии «Практическое глубокое обучение» см. здесь:«Практическое глубокое обучение» — Колонка LolitaAnn — Nuggets (juejin.cn)
Заметки все еще обновляются......