Участвуйте в 16-м дне Ноябрьского испытания обновлений, узнайте подробности события:Вызов последнего обновления 2021 г.

пойматьобобщение моделиДополнительная «гладкость».

Гладкость, т.е. функция не должна быть чувствительна к небольшим изменениям на входе.

то естьХорошая модель должна быть устойчивой к возмущениям входных данных. Он делится на следующие два аспекта.

1. Использование зашумленных данных эквивалентно тихоновской регуляризации.

В 1995 году Кристофер Бишоп доказал, что обучение с входным шумом эквивалентно тихоновской регуляризации.Neural Networks for Pattern Recognition]

7.5 главы 7 глубокого обучения: для некоторых моделей добавление шума с минимальной дисперсией к входным данным эквивалентно наложению штрафа за норму на веса (Bishop, 1995a, b).

Тихоновская регуляризация (Тихоновская регуляризация)

Функция стоимости как метод наименьших квадратов $\frac{1}{2}\|\boldsymbol{A} \boldsymbol{x}-\boldsymbol{b}\|_{2}^{2}$ Улучшение, Тихонов предложил в 1963 году использовать регуляризованную функцию стоимости наименьших квадратов
$J(x)=\frac{1}{2}\left(\|A x-b\|_{2}^{2}+\lambda\|x\|_{2}^{2}\right)$
в формуле $\lambda \geqslant 0$ называются параметрами регуляризации.
То есть добавление очень небольшого шума к входу можно рассматривать как сумму $L_2$ Регуляризация такая же. То есть содержание предыдущего раздела см.:Практическое глубокое обучение 4.5, регуляризация, распад веса — самородки (juejin.cn)

2. Метод исключения: добавление шума между слоями

Как правило, устойчивость выше, когда к скрытым единицам добавляется шум. Добавление шума к скрытому юниту — основное направление развития алгоритма Dropout.

В 2014 г. Шривастава и др. [Dropout: a simple way to prevent neural networks from overfitting] Объедините идеи Бишопа и примените их к внутренним слоям сети. Во время обучения шум вводится в каждый слой сети перед вычислением последующих слоев. Они поняли, что при обучении глубокой сети с несколькими слоями введение шума только повышает плавность отображения ввода-вывода.

Этот метод называется отсевом, потому что мы якобы отбрасываем некоторые нейроны во время обучения. На каждой итерации в процессе обучения отсев состоит из обнуления некоторых узлов в текущем слое перед вычислением следующего слоя.

На каждой итерации обучения генерируется точка возмущения $\mathbf{x}'$ . и запросить $E[\mathbf{x}'] = \mathbf{x}$ . (Е - ожидание)

При стандартной регуляризации отсева каждый слой устраняется путем нормализации по количеству узлов, которые сохраняются (не удаляются). Следующее:

\begin{align} h' = \begin{cases} 0 & \text{ с вероятностью} p \\ \frac{h}{1-p} & \text{другие случаи} \end{cases} \end{aligned }

По замыслу ожидаемое значение остается прежним, т.е. $E[h'] = h$ .

Например: $\begin{aligned} E\left[x_{i}'\right] &=p \cdot 0+(1-p) \frac{x_{i}}{1-p} =x_{i} \end{aligned}$

Отсев на практике:

\mathbf{h} =\sigma\left(\mathbf{W}_{1} \mathbf{x}+\mathbf{b}_{1}\right)

\begin{align} h' = \begin{cases} 0 & \text{ с вероятностью} p \\ \frac{h}{1-p} & \text{другие случаи} \end{cases} \end{aligned }

По замыслу ожидаемое значение остается прежним, т.е. $E[h'] = h$ .

Например: $\begin{aligned} E\left[x_{i}'\right] &=p \cdot 0+(1-p) \frac{x_{i}}{1-p} =x_{i} \end{aligned}$

Отсев на практике:

\begin{aligned} &\mathbf{h} =\sigma\left(\mathbf{W}_{1} \mathbf{x}+\mathbf{b}_{1}\right) \\\\ &\mathbf{h}^{\prime}=\operatorname{dropout}(\mathbf{h}) \\ &\mathbf{o} =\mathbf{W}_{2} \mathbf{h}^{\prime}+\mathbf{b}_{2} \\ &\mathbf{y} =\operatorname{softmax}(\mathbf{o}) \end{aligned}

Когда мы применяем выпадение к скрытому слою, чтобы $p$ Когда вероятность установки скрытых единиц равна нулю, результат можно рассматривать как сеть, содержащую только подмножество исходных нейронов. На изображении ниже удалено $h_2$ и $h_5$ . Следовательно, вычисление результата больше не зависит от $h_2$ или $h_5$ , и их соответствующие градиенты также исчезают при выполнении обратного распространения. Таким образом, вычисление выходного слоя не может быть чрезмерно зависимым от $h_1, \ldots, h_5$ любой элемент из .

"Уровень отчисления"

Подробнее о серии «Практическое глубокое обучение» см. здесь:«Практическое глубокое обучение» — Колонка LolitaAnn — Nuggets (juejin.cn)

Заметки все еще обновляются......