Прямое распространение нейронной сети

Нейронные сети

Прямое распространение нейронной сети

однослойная нейронная сеть

Структурная схема

神经网络1.png

формула

[z1z2zn]=[w11(i)w12(i)w1m(i)w21(i)w22(i)w2m(i)wn1(i)wn2(i)wnm(i)][x1x2xn]+[b1(i)b2(i)bn(i)]\begin{bmatrix}z_1 \\z_2 \\\vdots \\z_n \\ \end{bmatrix} = \begin{bmatrix}w^{(i)}_{11} & w^{(i)}_{12} & \cdots & w^{(i)}_{1m} \\w^{(i)}_{21} & w^{(i)}_{22} & \cdots & w^{(i)}_{2m} \\\vdots & \vdots & & \vdots \\w^{(i)}_{n1} & w^{(i)}_{n2} & \cdots & w^{(i)}_{nm} \\ \end{bmatrix} \begin{bmatrix}x_1 \\x_2 \\\vdots \\x_n \\ \end{bmatrix} + \begin{bmatrix}b^{(i)}_1 \\b^{(i)}_2 \\\vdots \\b^{(i)}_n \\ \end{bmatrix}
z(i)=W(i)x+b(i)z^{(i)} = W^{(i)}\cdot x + b^{(i)}
[y1y2yn]=a([z1z2zn])\begin{bmatrix}y_1 \\y_2 \\\vdots \\y_n \\ \end{bmatrix} = a\begin{pmatrix}\begin{bmatrix}z_1 \\z_2 \\\vdots \\z_n \\ \end{bmatrix}\end{pmatrix}
y(i)=a(z(i))y^{(i)} = a(z^{(i)})

срок

Предвзятостьbb

Контролирует, насколько легко активируются нейроны

Весаwijlw^l_{ij}

  • llотносится к первомуllЭтаж
  • iiотносится к первомуllпервоеiiнейроны
  • jjотносится к первомуl1l - 1первоеjjнейроны

z(i)z^{(i)}

первоеiiПромежуточный результат слоев

y(i)y^{(i)}

первоеiiвывод слоя

трехслойная нейронная сеть

Структурная схема

神经网络2.png

срок

one-hot

Положительное решение 1, остальные 0

normalize

нормализовать, нормализовать, нормализовать

получить данные010\sim1между

пакетная обработка

Обработка пакета данных за раз, матричный расчет

  • партия партия
  • размер пакетных данных

функция активации

sigmoid

f(x)=11+exf(x) = \frac{1}{1+e^{-x}}

ступенчатая функция

f(x)={1x>00x0f(x) = \begin{cases} 1 & x > 0 \\ 0 & x \leq 0 \end{cases}

relu

f(x)={xx>00x0f(x) = \begin{cases} x & x > 0 \\ 0 & x \leq 0 \end{cases}

Функция активации выходного слоя

Функция тождества (регрессия)

f(x)=xf(x) = x

софтмакс (классификация)

f(x)=exiex1++exnf(x) = \frac{e^{x_i}}{e^{x_1} + \cdots + e^{x_n}}

обрабатывать переполнение данных, предотвращатьexie^{x_i}очень большой

f(x)=exicex1c++exncc=max{x1,,xn}\begin{aligned} f(x) = \frac{e^{x_i - c}}{e^{x_1 - c} + \cdots + e^{x_n - c}} & & c = max\{x_1 ,\cdots, x_n\} \end{aligned}