Сегодня восьмой день моего ноябрьского испытания обновлений.
Помимо кросс-энтропийного метода, есть еще один способ улучшить нейросеть — добавление слоя нейронов softmax
слой нейронов softmax
Слой нейронов softmax определяет новыйвыходной слой, его положение в нейронной сети показано на следующем рисунке:
для ввода, метод softmaxt применяет функцию softmax ввыше, то есть дляНейрон, значение активации которого равно:
Указывает, что суммирование выполняется на всех нейронах.Формула показывает, что функция softmax будет выполнять две операции над входным значением нейрона:
- будет введено промежуточное значениечерез экспоненциальную функциюсопоставить св пространстве
- На неотрицательном интервале найдите долю отображенного значения каждого нейрона в сумме всех значений
Согласно приведенной выше формуле сумма выходных значений активации всех нейронов должна быть равна 1, а именно:
То есть выходные данные слоя softmax можно рассматривать как распределение вероятностей, и во многих задачах можно напрямую использовать значение активации вывода.Интерпретируется как вероятность принадлежности входной выборки к определенной категории, что является очень удобным способом решения задачи.
функция softmaxt
Принцип softmax для увеличения скорости обучения
Чтобы объяснить это, сначала определите логарифмическую функцию стоимости правдоподобия (которая является хорошим партнером для слоев softmax),представляет обучающий вход нейронной сети,представляет собой ожидаемый целевой результат, тогда примерноФункция стоимости логарифмического правдоподобия:
Рассчитать функцию стоимости по параметрамиЧастная производная от (процесс расчета):
Этот метод также исключаетчтобы избежать проблемы падения скорости обучения. Таким образом, небольшой эффект «функции стоимости softmax + логарифмического правдоподобия» может быть эквивалентен: «квадратичная функция стоимости + перекрестная потеря энтропии».
Почему это называется софтмакс
Добавьте нормальную сумму в функцию softmax, формула принимает вид:
Из смысла формулы, объясненной ранее, видно, что увеличениеПосле этого сумма всех значений активации вывода по-прежнему равна 1. когдаФункция softmax получается, когдачас,, что делает невозможным различение разности вероятностей каждого класса,Смысл в том, чтобы сгладить кривую распределения вероятностей, чтобы малые числа имели определенное значение.
иСмысл легче понять, т.Из изображения функции видно, что она очень быстро растет и может отображать большие числа в большое пространство, а маленькие числа — в относительно небольшое пространство, эффективно достигая цели отсеивания максимальной вероятности.
Обратное распространение softmax и логарифмическое правдоподобие
В алгоритме обратного распространения для вычисления ошибки, в алгоритме обратного распространения softmax+log-правдоподобия его формула расчета выглядит следующим образом:
которыйзначение, процесс доказательства был написан в предыдущих примечаниях.