Основы глубокого обучения, функция Softmax

Резюме подробной серии статей

Оригинальная ссылка:CHAPTER 3 Improving the way neural networks learn

Предисловие Софтмакс

В основном мы используем кросс-энтропию для решения проблем с медленным обучением. Однако я хотел бы кратко представить другой подход к этой проблеме, основанный на слоях нейронов softmax. В искусственной нейронной сети (ИНС) softmax обычно используется как функция активации выходного слоя. Это не только потому, что он хорошо работает, но и потому, что он упрощает понимание выходных значений ИНС. В то же время эффект обучения softmax с функцией стоимости логарифмического правдоподобия лучше, чем эффект использования квадратичной функции стоимости.

Свойства функции Softmax

Функциональная формула softmax выглядит следующим образом:

a^L_j = \frac{e^{z^L_j}}{\sum_k e^{z^L_k}},

Показатель степени в формуле гарантирует, что все выходные активации положительны. Тогда суммирование знаменателей в уравнении снова гарантирует, что выходная сумма softmax равна. Эта конкретная форма гарантирует, что значения активации вывода образуют естественный способ распределения вероятностей. Вы можете думать об этом как о своего рода корректировке z^L_j метод, а затем интегрировать результаты, чтобы сформировать распределение вероятностей.

Наиболее очевидной особенностью функции softmax является то, что она принимает отношение входных данных каждого нейрона к сумме входных данных всех нейронов в текущем слое в качестве выходных данных нейрона. Это облегчает интерпретацию выходных данных: чем больше выходное значение нейрона, тем выше вероятность того, что класс, соответствующий этому нейрону, является истинным классом.

Монотонность softmax

доказать, что если j=k но $\partial a^L_j / \partial z^L_k$ положительный, $j \neq k$ время отрицательно. В результате увеличивается z^L_j увеличит соответствующее значение активации выхода a^L_j и уменьшите все остальные значения активации выхода. Доказательство монотонности будет дано позже.

Нелокальность softmax

Одним из преимуществ слоя softmax является то, что вывод a^L_j соответствующий взвешенный вход $a^L_j = \sigma(z^L_j)$ Функция. Так как знаменатель суммирует все $e^{z^L_k}$ Таким образом, формула расчета вычисляет каждый a_j^L оба с другим a_j^L Тесно связаны. Глубокое понимание для слоя softmax: любое конкретное значение активации вывода a^L_j Зависит от всех взвешенных входных данных.

Инвертировать слой softmax

Предположим, у нас есть нейронная сеть с выходным слоем softmax, тогда значение активации a^L_j Известный. Легко доказать, что соответствующий взвешенный вход имеет вид $z^L_j = \ln a^L_j + C$ , где постояннаяне зависит отиз.

Softmax решает проблему медленного обучения

Теперь у нас есть некоторое представление о слое гибких максимумных нейронов. Но мы не видели, как слой soft max решит проблему медленного обучения. Чтобы понять это, давайте сначала определим функцию логарифмического правдоподобия. Мы используемпредставляет обучающий ввод сети,представляет соответствующий целевой результат. Тогда функция стоимости, связанная с этим обучающим входом, имеет вид

Итак, если бы мы тренировались на изображениях MNIST, ввод был бы, то соответствующая логарифмическая стоимость правдоподобия равна $-\ln a_7^L$ . Чтобы понять, что это означает интуитивно, подумайте о том, когда сеть работает хорошо, т. е. подтверждается ли входной сигнал.когда. В это время он оценит соответствующую вероятность a_7^L иочень близко, поэтому цена $-\ln a_7^L$ будет маленьким. И наоборот, если сеть работает плохо, вероятность a_7^L становится маленькой, цена $-\ln a_7^L$ впоследствии увеличилось. Таким образом, функция стоимости логарифмического правдоподобия также удовлетворяет условию нашей функции ожидаемой стоимости.

Как насчет медленного обучения? Чтобы проанализировать это, вспомните, что ключом к медленному обучению является количество $\partial C / \partial w^L_{jk}$ и $\partial C / \partial b^L_j$ изменения. Я не буду приводить здесь подробный вывод, но с помощью небольшой алгебры вы получите

\frac{\partial C}{\partial b^L_j} = a^L_j-y_j

\frac{\partial C}{\partial w^L_{jk}} = a^{L-1}_k (a^L_j-y_j)

Эти уравнения на самом деле аналогичны тем, что мы получили ранее для кросс-энтропии. И, как и в предыдущем анализе, эти выражения гарантируют, что мы не столкнемся с проблемами медленного обучения. На самом деле полезно думать о выходном слое softmax с логарифмической стоимостью правдоподобия как о очень похожем на сигмовидный выходной слой с кросс-энтропийной стоимостью.

При таком сходстве следует ли вам использовать сигмовидный выходной слой с кросс-энтропийной стоимостью или выходной слой softmax со стоимостью логарифмического правдоподобия? На самом деле во многих сценариях приложений хорошо работают оба метода. С общей точки зрения комбинация softmax плюс логарифм правдоподобия больше подходит для сценариев, в которых выходные активации необходимо интерпретировать как вероятности. Это не всегда проблема, но это действительно полезно для непересекающихся задач классификации, таких как MNIST.

Математическое доказательство эффективности Softmax

Функциональная формула softmax выглядит следующим образом:

Результаты вывода softmax весьма специфичны и делятся на два случая.

Как упоминалось выше, квадратичная функция стоимости может вызвать проблему низкой скорости обучения при обучении ИНС. То есть, чем дальше начальное выходное значение от истинного значения, тем медленнее скорость обучения. Эту проблему можно решить, используя кросс-энтропийную функцию стоимости. Фактически, эту проблему также можно решить другим методом, который заключается в использовании функции активации softmax и использовании функции стоимости логарифмического правдоподобия для ее решения.

Формула для функции стоимости логарифмического правдоподобия:

Обратите внимание на эту ситуацию:Среди них он представляет собой первую a_k Выходное значение нейрона, y_k Представляет истинное значение, соответствующее k-му нейрону, принимая значение 0 или 1 . так как y_k Принимает значение 0 или 1 для каждого образца, y_1,y_2,..,y_k Только один принимает 1, а остальные принимают 0, поэтому знак суммирования функции логарифмического правдоподобия можно удалить и упростить до

Чтобы проверить, что softmax и эта функция стоимости также могут решить вышеупомянутую проблему замедления скорости обучения, следующим фокусом является вывод формулы градиента веса w и смещения b ИНС.

Сначала найдите частную производную функции потерь по смещению b:

когда i=j Когда , введите приведенный выше результат $\frac{\partial a^L_j}{\partial z^L_i}=a_j^L(1-a_j^L)$

\begin{aligned} \frac{\partial C}{\partial b_{j}^L} &= \frac{\partial C}{\partial a^L_j} \frac{\partial a^L_j}{\partial z^L_i} \\ &= - \frac{1}{a^L_j} [a_j^L(1-a_j^L)] \\ &= a_j^L -1 \end{aligned}

когда $i\not= j$ Когда , введите приведенный выше результат $\frac{\partial a^L_j}{\partial z^L_i}=-a_j^La_i^L$

\begin{aligned} \frac{\partial C}{\partial b_{j}^L} &= \frac{\partial C}{\partial a^L_j} \frac{\partial a^L_j}{\partial z^L_i} \\ &= - \frac{1}{a^L_j} (-a_j^La_i^L) \\ &= a_i^L \end{aligned}

Согласно четырем уравнениям обратного распространения см. конкретный анализ«Алгоритм обратного распространения»

Знать, $\frac{\partial C}{\partial b^l_j} =\delta^l_j$ и $\frac{\partial C}{\partial w^l_{jk}} = a^{l-1}_k \delta^l_j$

Так когда i=j час,

\frac{\partial C}{\partial w^L_{jk}} = a^{L-1}_k (a^L_j-1)

когда $i\not= j$ час,

\frac{\partial C}{\partial w^L_{jk}} = a^{L-1}_k a_i

НапримерПри расчете нескольких слоев окончательная оценка вектора обучающей выборки составляет [ 2, 3, 4 ], тогда вероятность после функции softmax соответственно = [e ^ 2 / (e ^ 2 + e ^ 3 + e ^ 4),е^3/(е^2+е^3+е^4),е^4/(е^2+е^3+е^4)] = [0,0903,0,2447,0,665], если правильная классификация этой выборки вторая, то вычисляемая частная производная (на самом деле эта частная производная есть $\delta^L$ Или скорее $\partial C/\partial b^L$ ) равно [0,0903,0,2447-1,0,665]=[0,0903,-0,7553,0,665], это очень просто! Затем вы можете выполнить обратное распространение на основе этого.

Уведомление! когда y_j Когда значение не 0 или 1, а действительное значение в интервале [0,1], приведенную выше формулу нужно лишь немного изменить, просто поместите следующую формулу в $\frac{\partial C}{\partial a^L_j}$ результаты из $\frac{1}{a^L_j}$ изменить на $\frac{y_i}{a^L_j}$ Вот и все,

Другие процессы деривации также должны быть скорректированы соответствующим образом. Так что в некоторых местах вы увидите такую формулу,

И то, и другое верно, только потому, что посылки разные, поэтому и вывод другой.

Связь между кросс-энтропией и логарифмической вероятностью

в заключении: Функция потерь перекрестной энтропии и максимального правдоподобия согласуется в случае, когда класс, к которому принадлежит образец, уникален.

Ключевыми моментами, которые могут быть гармонично объединены, являются:

Категория, к которой принадлежит образец, уникальна, и образец должен принадлежать к определенной категории.Идея вероятности состоит в том, чтобы максимизировать вероятность выборки образцов, поэтому каждый образец может находиться только в фиксированном состоянии. Это позволяет записать вероятностную форму каждой выборки в комплексной форме, а комплексную форму можно просто разделить на кросс-энтропию под логарифмом. При мультиклассе, если класс, к которому принадлежит выборка, уникален, потеря максимального правдоподобия и потеря перекрестной энтропии по-прежнему согласуются.

Аргумент:

биномиальное распределение

Биномиальное распределение также называется распределением 0-1. Например, случайная величина x подчиняется биномиальному распределению. Что касается параметра μ (0≤μ≤1), вероятность того, что его значение примет 1 и примет 0, выглядит следующим образом:

Тогда распределение вероятностей по x:

функция логарифмического правдоподобия для выборки из биномиального распределения

Дана выборка D={x1,x2,…,xB} — это наблюдение над случайной величиной x в предположении, что выборка не зависит от биномиального распределения p(x|µ) (p(x1,x2,…, xN) = ∏ip(xi)), то функция правдоподобия текущего набора выборок относительно μ равна:

p(\mathcal D|\mu)=\prod_{n=1}^Np(x_n|\mu)=\prod_{n=1}^N\mu^{x_n}\left(1-\mu\right)^{1-x_n}

С частотной точки зрения через значение функции максимального правдоподобия можно оценить параметр µ, максимизирующий функцию правдоподобия, что эквивалентно максимизации ее логарифмической формы:

Нахождение его производной по μ, решение максимального правдоподобия для μ:

Здесь мы сосредоточимся только на:

ln P(D|\mu)=\sum_{n=1}^N \ln \mu+(1-x_n)\ln(1-\mu)

Функция кросс-энтропийных потерь

L_H(\mathbf x,\mathbf z)=-\sum_{n=1}^Nx_n\log z_n+(1-x_n)\log(1-z_n)

x представляет исходный сигнал, а z представляет реконструированный сигнал. (Цель функции потерь — минимизировать, а функции правдоподобия — максимизировать, разница между ними — только один знак).

использованная литература

[1] Michael Nielsen.CHAPTER 3 Improving the way neural networks learn[DB/OL]. http://neuralnetworksanddeeplearning.com/chap3.html, 2018-06-22.

[2] Zhu Xiaohu. Zhang Freeman.Another Chinese Translation of Neural Networks and Deep Learning[DB/OL].https://github.com/zhanggyb/nndl/blob/master/chap3.tex, 2018-06-22.

[3] __Hong Функция стоимости логарифмического правдоподобия softmax (вывод формулы) [DB/OL].

[4] Yizhen HIT_NLP Пример ручного ввода шаг за шагом покажет вам функцию softmax и соответствующий процесс деривации [DB/OL]. https://www.jianshu.com/p/ffa51250ba2e. 2018-06-22 .