Логистическая регрессия｜Вызов августовского обновления

В этой статье кратко представлены определение и принцип логистической регрессии. Для модели линейной регрессии (линейная регрессия) введите $x$ , параметры сети $w$ и $b$ , выходное значение $y$ , является непрерывной величиной. Но конечное выходное значение задачи классификации должно быть дискретным, так как же преобразовать его в задачу классификации?

Рассмотрите возможность добавления $\sigma$ функция, становится $y=\sigma(wx+b)$ ,это $\sigma$ Также называется сигмовидной функцией или логистической функцией, так что выходное значение может быть сжато до $[0,1]$ , мы можем приравнять это значение как вероятность

Для проблемы регрессии цель состоит в том, чтобы сделать pred (прогнозируемое значение) аппроксимацией выходных данных. $y$ значение, то есть минимизировать $\text{dist}(pred,y)$ ; для проблемы классификации цель состоит в том, чтобы максимизировать точность или минимизировать $\text{dist}(p_\theta(y|x), p_r(y|x))$ . Основное различие между ними заключается в том, что цели обучения разные, и здесь могут возникнуть вопросы, а почему бы не добиться максимальной точности?

Потому что общая формула расчета акк: $\frac{Количество пар предсказаний}{Общее количество}$

acc = \frac{\sum I(pred = y_i)}{\text{len}(Y)}

Для задачи бинарной классификации мы принимаем порог 0,5, т.е. $pred>0.5$ , считается первой категорией, $pred<0.5$ , которую мы относим ко второй категории. В начале обязательно будет неверная классификация.Предполагая, что реальный класс равен 1, а прогнозируемое значение равно 0,4, сеть классифицирует его как 0. После обновления сети прогнозируемое значение становится 0,45, хотя оно ближе к 1 и более близко к истинному значению, но так как существенного изменения нет, т.е. все же не более 0,5

В другом примере, если прогнозируемое значение в начале равно 0,499, а реальная категория равна 1, после обновления сети прогнозируемое значение становится равным 0,501, и прогноз является правильным, но при расчете градиента это может вызвать градиент быть очень, очень большим или даже прерывистым.

Вышеуказанные два вопроса можно резюмировать следующим образом:

gradient = 0 if accuracy unchanged but weights changed
gradient not continuous since the number of correct is not continuous

Последний вопрос, зачем вызывать логистическую регрессию? Логистику легко понять, потому что она использует $\sigma$ функция, но почему она называется регрессией, а не классификацией? Ответ на этот вопрос вызывает много споров в Интернете.Одно из объяснений заключается в том, что, поскольку в начале классификации использовалась MSE, она называлась регрессией (обычно используемая потеря для решения проблемы регрессии - MSE), но теперь проблема классификации решается с помощью Cross Entropy, но она называется и используется всеми, поэтому она не изменилась