Функция активации
Функция активации принимает выходные данные последнего слоя нейронной сети в качестве входных данных и преобразует их. Также используется между двумя слоями нейронной сети.
Так зачем использовать функцию активации в нейронной сети?
Например, в логистической регрессии он используется для преобразования вывода в 0/1 для классификации. Используется в нейронных сетях для определения выхода да/нет. Или сопоставьте вывод с диапазоном, например, распознавание рукописных цифр, сопоставьте вывод с 0–9.
Функции активации обычно делятся на две категории: линейные и нелинейные.
Линейная или тождественная функция активации
Нелинейная функция активации
Вот некоторые общие функции активации:
сигмовидная функция
- Когда входные данные слишком велики или слишком малы, градиент близок к 0. Поэтому, когда начальное значение велико, градиент нейронов исчезнет, что усложнит обучение.
- Среднее значение вывода этой функции не равно 0. Следовательно, нейроны последнего слоя принимают ненулевой выход предыдущего слоя в качестве входного сигнала, и градиент всегда положительный.
Функция активации гиперболического синуса Tanh
Функция активации Relu (линейное выпрямление)
- Скорость сходимости намного выше, чем у сигмоиды и Тана.
- По сравнению с сигмовидной и Tanh, из-за характеристик функции для получения значения активации требуется только одно пороговое значение. В то же время есть и недостатки, например, когда через нейрон Relu протекает очень большой градиент, после обновления параметров сложно активировать последующие данные, потому что значение активации слишком велико.
Функция активации Softmax
Softmax используется в процессе мультиклассификации.Он сопоставляет выходные данные нескольких нейронов с интервалом (0,1), который можно понимать как вероятность, для выполнения мультиклассификации!
Почему производные или дифференцируемые упомянуты выше: При обновлении градиента в градиентном спуске вам нужно знать наклон кривой и обновлять его, так как это направление самого быстрого спуска. Следовательно, в нейронной сети необходимо использовать производную от функции активации.