[Концепция глубины] Анализ преимуществ и недостатков Softmax

Личная страница -->xiaosongshine.github.io/

Софтмакс - это максимум софта (смягчения). В задаче классификации CNN наша основная истина имеет форму одного горячего, Взяв в качестве примера четыре классификации, идеальный результат должен быть (1, 0, 0, 0) или (100%, 0%, 0 %, 0%), что является конечной целью, которую мы хотим, чтобы CNN узнала.

Амплитуда выхода сети варьируется в широких пределах, и тот, у которого самый большой выход, соответствует нужному нам результату классификации. Достоверность классификации обычно рассчитывается в виде процента.Проще всего рассчитать выходной коэффициент, предполагая, что выходной признак $(x_{1}, x_{2}, x_{3}, x_{4})$ , это самый прямой и распространенный способ, относительно soft max, здесь мы его называемжесткий макс:

А теперь генералсофт макс, нелинейно усиливает каждый выход x до exp(x) в форме:

В чем разница между хард максом и софт максом? посмотреть несколько примеров

При тех же выходных характеристиках soft max легче достичь конечной цели однократной формы, чем hard max.Другими словами, softmax снижает сложность обучения и облегчает сходимость задачи множественной классификации.

Что ты хочешь этим сказать? Softmax поощряет, чтобы истинный вывод целевого класса был больше, чем у других классов, но не требует большего. Для встраивания функции распознавания лиц,Softmax поощряет разделение функций по разным классам, но сильно препятствует разделению функций., как показано в приведенной выше таблице (5, 1, 1, 1), потери уже очень малы, а СНС близка к градиенту сходимости и больше не уменьшается.

Softmax Loss обучает CNN, а 2D-карты признаков для 10 категорий в MNIST визуализируются следующим образом:

Различные категории четко разделены, но эта ситуация не соответствует потребностям нашего сравнения векторов признаков при распознавании лиц. При расчете сходства векторов признаков при распознавании лиц обычно используются евклидово расстояние (расстояние L2) и косинусное расстояние (косинусное расстояние), мы обсудим эти два случая отдельно:

L2 расстояние: Чем меньше расстояние L2, тем выше сходство векторов. Возможно, расстояние по собственным векторам одного и того же класса (желтый) больше, чем расстояние по собственным векторам разных классов (зеленый).

cos расстояние: Чем меньше прилежащий угол, тем больше косинусное расстояние и выше сходство векторов. Возможно, собственные векторы одного класса имеют больший угол (желтый), чем собственные векторы разных классов (зеленый).

заключить:

Глубинные функции обучения Softmax разделят все гиперпространство или гиперсферу в соответствии с количеством категорий, чтобы гарантировать, что категорииотделимый, что очень подходит для задач мультиклассификации, таких как MNIST и ImageNet, потому что тестовый класс должен быть в обучающем классе.
Но Софтмакс неВнутриклассовое уплотнение и межклассовое разделение не требуются, это очень не подходит для задач распознавания лиц, потому что 1W количество людей в обучающей выборке очень незначительно по сравнению с 7 миллиардами людей в мире в тестовой выборке, и мы не можем получить все обучающие выборки. , общее Мы также требуем, чтобы обучающая и тестовая выборки не перекрывались.
Поэтому необходимо преобразовать Softmax.Помимо обеспечения разделимости, класс вектора признаков должен быть максимально компактным, а классы должны быть максимально разделены..