Примите участие в 11-м дне ноябрьского испытания обновлений и узнайте подробности события:Вызов последнего обновления 2021 г.

Зачем нужна функция активации?

Давайте проанализируем это с помощью следующей нейронной сети:

Для изображения выше: мы знаем, какой $X^{4 \times 1} \quad H^{5 \times 1} \quad O^{7 \times 1}$

Расчет между слоями:

\begin{array}{ll} H=W_{1} x+b_{1} и его матрица {[H]_{5 \times 1}=\left[w_{1}\right]_{ 5 \ times 4}[x]_{4 \times 1}+\left[b_{1}\right]_{5 \times 1}} \\ O=W_{2} H+b_{2} и его матрица {[O]_{3 \times 1}=\left[w_{2}\right]_{3 \times 5}[H]_{5 \times 1}+\left[b_{2}\ справа] _{3 \times 1}} \end{массив}

Объедините приведенные выше две формулы расчета:

\begin{aligned} O &=w_{2} H+b_{2} \\ &=w_{2}\left(w_{1} X+b_{1}\right)+b_{2} \\ &=w_{2} w_{1} X+w_{2} b_{1}+b_{2} \\ \end{aligned}

Взгляните еще раз на его матричные операции:

$[w_{2}]_{3 \times 5} \cdot [w_{1}]_{5 \times 4} =[w]_{3 \times 4}$

$[w_{2}]_{2 \times 5} \cdot [b_{1}]_{5 \times 1} =[b_{1^{\prime}}]_{3 \times 1}$

$[b_{1^{\prime}}]_{3 \times 1}+[b_{2}]_{3 \times 1} =[b]_{3 \times 1}$

Затем берём вычисленную матрицу в формулу комбинированного расчёта, и она снова становится $O=wX+b$ . В данном случае эта многослойная нейросеть вообще не имеет смысла, раз ее можно объединить, не лучше ли написать ее сразу как один слой? вкусные! Но у многослойной модели есть некоторые вещи, которые не может сделать один слой, так как же сохранить многослойную модель, чтобы ее нельзя было просто объединить? Затем используется функция активации.

Функция ReLU (выпрямленная линейная единица)

формула: $\operatorname{ReLU}(x) = \max(x, 0)$

$\sigma(x)= \begin{cases}x & \text { if } x>0 \\ 0 & \text { otherwise }\end{cases}$

Функция ReLU сохраняет только положительные элементы и отбрасывает все отрицательные элементы, устанавливая соответствующее значение активации на 0.

Функция, обрабатываемая ReLU, выглядит так:

Сигмовидная функция

Тогда это была первая функция активации, которую я изучил и с которой соприкоснулся. Я слушал в то время класс Ву Энда. Он подробно рассказывал о преимуществах использования сигмоиды. Я также делал заметки, которые можно увидеть здесь:Логистическая регрессия | Логистическая регрессия — самородки (juejin.cn)

формула: $\operatorname{sigmoid}(x) = \frac{1}{1 + \exp(-x)}$

$\sigma(x)= \begin{cases}1 & \text { if } x>0 \\ 0 & \text { otherwise }\end{cases}$

Для домена в $\mathbb{R}$ ввод в ,сигмовидная функцияПреобразуйте вход в выход на интервале (0, 1). Поэтому сигмовидную часто называют функцией сжатия: она сжимает любые входные данные в диапазоне (-inf, inf) до некоторого значения в интервале (0, 1).

тан функция

формула: $\operatorname{tanh}(x) = \frac{1 - \exp(-2x)}{1 + \exp(-2x)}$

Подобно сигмовидной функции, функция тангенса (гиперболический тангенс) также может сжимать свои входные данные в интервал (-1, 1).