Логистическая регрессия|Вызов августовского обновления

алгоритм

В этой статье кратко представлены определение и принцип логистической регрессии. Для модели линейной регрессии (линейная регрессия) введитеxx, параметры сетиwwиbb, выходное значениеyy, является непрерывной величиной. Но конечное выходное значение задачи классификации должно быть дискретным, так как же преобразовать его в задачу классификации?

Рассмотрите возможность добавленияо\sigmaфункция, становитсяy=о(wx+b)y=\sigma(wx+b),этоо\sigmaТакже называется сигмовидной функцией или логистической функцией, так что выходное значение может быть сжато до[0,1][0,1], мы можем приравнять это значение как вероятность

Для проблемы регрессии цель состоит в том, чтобы сделать pred (прогнозируемое значение) аппроксимацией выходных данных.yyзначение, то есть минимизироватьdist(pred,y)\text{dist}(pred,y); для проблемы классификации цель состоит в том, чтобы максимизировать точность или минимизироватьdist(pθ(yx),pr(yx))\text{dist}(p_\theta(y|x), p_r(y|x)). Основное различие между ними заключается в том, что цели обучения разные, и здесь могут возникнуть вопросы, а почему бы не добиться максимальной точности?

Потому что общая формула расчета акк:количество пар предсказанийобщее количество\frac{Количество пар предсказаний}{Общее количество}

acc=I(pred=yi)len(Y)acc = \frac{\sum I(pred = y_i)}{\text{len}(Y)}

Для задачи бинарной классификации мы принимаем порог 0,5, т.е.pred>0.5pred>0.5, считается первой категорией,pred<0.5pred<0.5, которую мы относим ко второй категории. В начале обязательно будет неверная классификация.Предполагая, что реальный класс равен 1, а прогнозируемое значение равно 0,4, сеть классифицирует его как 0. После обновления сети прогнозируемое значение становится 0,45, хотя оно ближе к 1 и более близко к истинному значению, но так как существенного изменения нет, т.е. все же не более 0,5

В другом примере, если прогнозируемое значение в начале равно 0,499, а реальная категория равна 1, после обновления сети прогнозируемое значение становится равным 0,501, и прогноз является правильным, но при расчете градиента это может вызвать градиент быть очень, очень большим или даже прерывистым.

Вышеуказанные два вопроса можно резюмировать следующим образом:

  • gradient = 0 if accuracy unchanged but weights changed
  • gradient not continuous since the number of correct is not continuous

Последний вопрос, зачем вызывать логистическую регрессию? Логистику легко понять, потому что она используето\sigmaфункция, но почему она называется регрессией, а не классификацией? Ответ на этот вопрос вызывает много споров в Интернете.Одно из объяснений заключается в том, что, поскольку в начале классификации использовалась MSE, она называлась регрессией (обычно используемая потеря для решения проблемы регрессии - MSE), но теперь проблема классификации решается с помощью Cross Entropy, но она называется и используется всеми, поэтому она не изменилась