Отсев из Deep Learning 4.6 на практике

глубокое обучение

Участвуйте в 16-м дне Ноябрьского испытания обновлений, узнайте подробности события:Вызов последнего обновления 2021 г.

пойматьобобщение моделиДополнительная «гладкость».

Гладкость, т.е. функция не должна быть чувствительна к небольшим изменениям на входе.

то естьХорошая модель должна быть устойчивой к возмущениям входных данных. Он делится на следующие два аспекта.


1. Использование зашумленных данных эквивалентно тихоновской регуляризации.

В 1995 году Кристофер Бишоп доказал, что обучение с входным шумом эквивалентно тихоновской регуляризации.Neural Networks for Pattern Recognition]

7.5 главы 7 глубокого обучения: для некоторых моделей добавление шума с минимальной дисперсией к входным данным эквивалентно наложению штрафа за норму на веса (Bishop, 1995a, b).

  • Тихоновская регуляризация (Тихоновская регуляризация)

    Функция стоимости как метод наименьших квадратов12Axb22\frac{1}{2}\|\boldsymbol{A} \boldsymbol{x}-\boldsymbol{b}\|_{2}^{2}Улучшение, Тихонов предложил в 1963 году использовать регуляризованную функцию стоимости наименьших квадратов

    J(x)=12(Axb22+λx22)J(x)=\frac{1}{2}\left(\|A x-b\|_{2}^{2}+\lambda\|x\|_{2}^{2}\right)

    в формулеλ0\lambda \geqslant 0называются параметрами регуляризации.

  • То есть добавление очень небольшого шума к входу можно рассматривать как суммуL2L_2Регуляризация такая же. То есть содержание предыдущего раздела см.:Практическое глубокое обучение 4.5, регуляризация, распад веса — самородки (juejin.cn)

2. Метод исключения: добавление шума между слоями

Как правило, устойчивость выше, когда к скрытым единицам добавляется шум. Добавление шума к скрытому юниту — основное направление развития алгоритма Dropout.

В 2014 г. Шривастава и др. [Dropout: a simple way to prevent neural networks from overfitting] Объедините идеи Бишопа и примените их к внутренним слоям сети. Во время обучения шум вводится в каждый слой сети перед вычислением последующих слоев. Они поняли, что при обучении глубокой сети с несколькими слоями введение шума только повышает плавность отображения ввода-вывода.

Этот метод называется отсевом, потому что мы якобы отбрасываем некоторые нейроны во время обучения. На каждой итерации в процессе обучения отсев состоит из обнуления некоторых узлов в текущем слое перед вычислением следующего слоя.

На каждой итерации обучения генерируется точка возмущенияx'\mathbf{x}'. и запроситьE[x']=xE[\mathbf{x}'] = \mathbf{x}. (Е - ожидание)

При стандартной регуляризации отсева каждый слой устраняется путем нормализации по количеству узлов, которые сохраняются (не удаляются). Следующее:

h'={0Вероятностьph1pДругие случаи\begin{align} h' = \begin{cases} 0 & \text{ с вероятностью} p \\ \frac{h}{1-p} & \text{другие случаи} \end{cases} \end{aligned }

По замыслу ожидаемое значение остается прежним, т.е.E[h']=hE[h'] = h.

Например:E[xi']=p0+(1p)xi1p=xi\begin{aligned} E\left[x_{i}'\right] &=p \cdot 0+(1-p) \frac{x_{i}}{1-p} =x_{i} \end{aligned}

Отсев на практике:

image.png

h=о(W1x+b1)\mathbf{h} =\sigma\left(\mathbf{W}_{1} \mathbf{x}+\mathbf{b}_{1}\right)
h'={0Вероятностьph1pДругие случаи\begin{align} h' = \begin{cases} 0 & \text{ с вероятностью} p \\ \frac{h}{1-p} & \text{другие случаи} \end{cases} \end{aligned }

По замыслу ожидаемое значение остается прежним, т.е.E[h']=hE[h'] = h.

Например:E[xi']=p0+(1p)xi1p=xi\begin{aligned} E\left[x_{i}'\right] &=p \cdot 0+(1-p) \frac{x_{i}}{1-p} =x_{i} \end{aligned}

Отсев на практике:

image.png

h=о(W1x+b1)h'=dropout(h)o=W2h'+b2y=softmax(o)\begin{aligned} &\mathbf{h} =\sigma\left(\mathbf{W}_{1} \mathbf{x}+\mathbf{b}_{1}\right) \\\\ &\mathbf{h}^{\prime}=\operatorname{dropout}(\mathbf{h}) \\ &\mathbf{o} =\mathbf{W}_{2} \mathbf{h}^{\prime}+\mathbf{b}_{2} \\ &\mathbf{y} =\operatorname{softmax}(\mathbf{o}) \end{aligned}

Когда мы применяем выпадение к скрытому слою, чтобыppКогда вероятность установки скрытых единиц равна нулю, результат можно рассматривать как сеть, содержащую только подмножество исходных нейронов. На изображении ниже удаленоh2h_2иh5h_5. Следовательно, вычисление результата больше не зависит отh2h_2илиh5h_5, и их соответствующие градиенты также исчезают при выполнении обратного распространения. Таким образом, вычисление выходного слоя не может быть чрезмерно зависимым отh1,,h5h_1, \ldots, h_5любой элемент из .


image.png

"Уровень отчисления"


Подробнее о серии «Практическое глубокое обучение» см. здесь:«Практическое глубокое обучение» — Колонка LolitaAnn — Nuggets (juejin.cn)

Заметки все еще обновляются......