Получите softmax и перекрестную энтропию
1. Мера количества информации - энтропия
объем информации
Количество информации связано со степенью удивления, которое испытывает получатель, когда сообщается информация.Чем менее вероятным и непредсказуемым является событие, выраженное информацией, тем больше количество информации.
I=logaP(x)1
Единица количества информации связана с a в приведенной выше формуле
- a=2, единицей информации является бит (bit)------наиболее часто используемый
- a=e, единицей количества информации является nat
- a=10, единицей информации является Хартли.
средняя информация
Мы называем энтропию энтропией, например
H(X)=−Σ(pi)logp(xi)
Дискретный источник имеет 4 символа 0, 1, 2 и 3, чтобы сформировать вероятности следующим образом
0 |
1 |
2 |
3 |
0.375 |
0.25 |
0.25 |
0.125 |
H(X)=−p0log2P(x0)−p1log2P(x1)−p2log2P(x2)−p3log2P(x3)
H(X)=−0.375log20.375−0.25log20.25−0.25log20.25−0.125log20.125=1.90564
2. Перекрестная энтропия
Возьмите распознавание рукописных цифр в качестве примера, чтобы наглядно продемонстрировать перекрестную энтропию.
H(p,q)=xΣp(x)log(q(x)1)
(image0)label=⎣⎢⎢⎢⎡1000⎦⎥⎥⎥⎤predicate=⎣⎢⎢⎢⎡0.80.10.10⎦⎥⎥⎥⎤(image2)label=⎣⎢⎢⎢⎡0001⎦⎥⎥⎥⎤predicate=⎣⎢⎢⎢⎡0.70.10.10.1⎦⎥⎥⎥⎤
H(p,q)=−1log20.8−1log10.1
3. softmax
Yi=Σi=1neziezi
См. следующий пример, вводZ,ВыходY,иYСумма вероятностей равна1
z=⎣⎢⎡z1z2z3⎦⎥⎤=⎣⎢⎡31−3⎦⎥⎤
i=1∑3ezi=e3+e1+e−3=22.8536
Первый шаг — сопоставить все числа с неотрицательными числами.z'=⎣⎢⎡e3e1e−3⎦⎥⎤
i=1∑3ezi=e3+e1+e−3=22.8536
На втором этапе понимается, что все числа сопоставляются с0-1в пределах диапазона, а сумма1 Y=∑i=13eziz'=∑i=13ezi⎣⎢⎡e3e1e−3⎦⎥⎤=22.8536⎣⎢⎡e3e1e−3⎦⎥⎤=22.8536⎣⎢⎡20.08552.718280.0497871⎦⎥⎤≈⎣⎢⎡0.880.120⎦⎥⎤
вывод softmax как вход для кросс-энтропии
Объединяя части 2 и 3 этой статьи, выходной вектор вероятности слоя softmax можно использовать в качестве входных данных для функции кросс-энтропийных потерь для задач классификации.
Y=∑i=13eziz'=∑i=13ezi⎣⎢⎡e3e1e−3⎦⎥⎤=22.8536⎣⎢⎡e3e1e−3⎦⎥⎤=22.8536⎣⎢⎡20.08552.718280.0497871⎦⎥⎤≈⎣⎢⎡0.880.120⎦⎥⎤
label=⎣⎢⎡100⎦⎥⎤
H(x)=−log2(0.88)=0.184425