Определение функции стоимости перекрестной энтропии и ее вывод (чтение заметок)

машинное обучение глубокое обучение
Определение функции стоимости перекрестной энтропии и ее вывод (чтение заметок)

Цель: решить проблему медленного обучения.


Выход нейрона — это просто a = σ(z), гдевзвешенная сумма входов. Тогда функция кросс-энтропийной стоимости:

где n — общее количество обучающих данных, суммирование выполняется по всем обучающим входным данным x, а y — соответствующему целевому результату.

Не очевидно, решают ли выражения проблему медленного обучения. На самом деле, не очевидно даже думать об этом определении как о функции стоимости! Прежде чем обратиться к медленному обучению, давайте посмотрим, как кросс-энтропию можно интерпретировать как функцию стоимости.

Есть две причины думать о кросс-энтропии как о функции затрат.

**Во-первых,** оно неотрицательно, C > 0. Видно, что все независимые члены при суммировании в формуле являются отрицательными числами, так как область определения логарифмической функции равна (0, 1), а перед суммированием стоит знак минус, поэтому результат не является обременительным .

**Во-вторых,** если для всех обучающих входных данных x фактический выход нейрона близок к целевому значению, то перекрестная энтропия будет близка к 0.

Предположим, в этом примере y = 0 и a ≈ 0. Вот результат, который мы думали получить. Мы видим, что первое слагаемое в формуле исключено, поскольку y = 0, а второе слагаемое на самом деле равно − ln(1 − a) ≈ 0. Наоборот, y = 1 и a ≈ 1. Таким образом, чем меньше разрыв между фактическим выпуском и целевым выпуском, тем ниже конечное значение кросс-энтропии. (Здесь предполагается, что выходной результат равен либо 0, либо 1, и фактическая классификация также одинакова)

Подводя итог, можно сказать, что кросс-энтропия неотрицательна и будет близка к 0, когда нейрон достигнет хорошего уровня точности. На самом деле это те свойства функции стоимости, которые нам нужны. На самом деле, этими характеристиками обладает и квадратичная функция стоимости. Поэтому перекрестная энтропия — хороший выбор. Но функция кросс-энтропийной стоимости имеет лучшее свойство, чем функция квадратичной стоимости, в том, что она позволяет избежать проблемы деградации скорости обучения. Чтобы понять это, давайте вычислим частную производную кросс-энтропийной функции по весам. Применим цепное правило дважды, подставив a = σ(z) в формулу, и получим:в соответствии сОпределение , после вывода, мы можем получитьПосле упрощения получаем:

Это красивая формула. Это говорит нам о том, что скорость обучения весу определяется σ(z)-y, которая является ошибкой на выходе. Большая ошибка, более высокая скорость обучения. Это результат, которого мы интуитивно ожидаем. В частности, эта функция стоимости также позволяет избежать медленного обучения, вызванного аналогичным уравнением σ'(z) в квадратичной функции стоимости. Когда мы используем кросс-энтропию, σ'(z) уменьшается, поэтому нам больше не нужно заботиться о том, станет ли она очень маленькой. Это уменьшение является особым эффектом перекрестной энтропии. На самом деле, это не очень чудесная вещь. Как мы увидим позже, кросс-энтропия на самом деле является просто выбором, удовлетворяющим этому свойству.

По аналогичному методу мы можем вычислить частную производную по смещению. Я не буду приводить здесь подробный процесс, вы можете легко убедиться, что:Опять же, это позволяет избежать медленного обучения, вызванного σ'(z)-подобным членом в квадратичной функции стоимости.