Машинное обучение (4) — обобщенная линейная регрессия

машинное обучение искусственный интеллект глубокое обучение регулярное выражение

функциональная модель

   Ранее мы обсуждали обычную линейную регрессию, на этот раз мы обсудим обобщенную линейную регрессию, также известную какЛогистическая регрессия, сначала напомним функциональную модель линейной регрессии:

f(x)=\omega^Tx+b

Эта функция представляет прямую, плоскость или гиперплоскость, но у нее есть фатальный недостаток.Когда она выполняет задачу классификации, например, мы приводим пример двух классификаций, она не может выполнить хорошую подгонку.Если, скажем, существует тренировочный набор, полученный изy,y_1=1,y_2=10,y_3=100, нам трудно сделать классификацию, и она не может соответствовать поверхности.Для поверхности мы хотим использовать линейную функцию для подгонки, и мы хотим, чтобы процесс подгонки был как можно лучше.Затем мы можем деформировать приведенная выше формула:

h(x)=g(\omega^Tx+b)

   В целом, с помощью модели логистической регрессии мы сопоставляем x во всем диапазоне действительных чисел с конечным числом точек, таким образом реализуя классификацию x. Потому что каждый раз, когда берется x, его можно отнести к определенному классу y после логистического регрессионного анализа.

Граничная решающая функция

   Это имя функции является моим собственным именем.Здесь мы кратко представим несколько общих функций.    В качестве примера возьмем две классификации.Для задачи двух классификаций наш самый простой способ —\omega^Tx+b\geqslant 0,Такy=1,\omega^Tx+b<0,Такy=0, вы можете быстро подумать о кусочных функциях (которые мы называемThresholdфункция):

f(x)=\left\{\begin{matrix}  1,& \omega^Tx+b\geqslant 0 & \\   0,&\omega^Tx+b< 0  &  \end{matrix}\right.

   Достаточно ли хороша эта функция для классификации? По крайней мере, по сложности и точности он должен быть хорош. Однако эта функция не дифференцируема, а кусочный градиент всегда равен 0, что нам явно хлопотно при последующей обработке, поэтому мы обычно не используем этот метод.   Здесь мы приходим непосредственно к нашемуSigmoidфункция:

s(x)=(1+e^{-x})^{-1}=\frac{1}{1+e^{-x}}

  Сигмовидная функция обычно используется в качестве конфигурации по умолчанию для таких алгоритмов, как логистическая регрессия и нейронные сети.Хотя это может быть хорошей функцией по умолчанию, у нее также есть недостатки.    Мы видим его изображение:

Sigmod.png

   Очевидно, если предположить, что наше начальное входное значение слишком велико, сигмоид по-прежнему ограничен(-1,1)Между тем, в это время, когда мы берем производную сигмовидной функции, мы обнаружим, что производная сигмовидной функции близка к 0, что мы называемнасыщаемость, поэтому мы должны попытаться изменить начальное значение.Общим методом является масштабирование, о котором мы поговорим позже.

  Более того, сигмовидная функция также имеет недостаток, заключающийся в том, что ожидание на выходе не равно 0, что очень плохо для нейронной сети, и мы также объясним это позже.

  Для сигмовидной функции первый недостаток, очевидно, легко решается, но второй недостаток более фатальный. Поэтому мы также используем функцию гиперболического тангенса (Hyperbolic Tangent):

tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}

   Его изображения:

Tanh.png
   математическое ожидание этой функции\int_{\infty}tanh(x)=0, но также имеет недостаток легкого насыщения.

   На самом деле функция тангенса является вариантом сигмовидной функции:

tanh(x)=2Sigmoid(2x)-1

   Но обычно для ускорения работы мы используем только сигмовидную функцию, поэтому нашаLogisticФункциональная модель это:

f(x)=\frac{1}{Sigmoid(\omega^Tx)}=\frac{1}{1+e^{-\omega^Tx}}

функция стоимости

  Мы даем функцию стоимости, не объясняя ее здесь. Мы подробно объясним выбор и использование функции стоимости в следующем разделе.

J(\omega)=-\frac{1}{m}[\sum^m_{i=1}y^{(i)}logh(\omega x^{(i)})+(1-y^{(i)})log(1-h(\omega x^{(i)}))]

Мы не вводим понятие регуляризации в текущем исследовании. Я не знаю, помните ли вы еще эту формулу. На самом деле это наша кросс-энтропийная формула. В следующем разделе мы подробно выведем эту функцию стоимости и объясним каждую функция стоимости оптимальный диапазон использования.

Мои самородки:WarrenRyan

Моя краткая книга:WarrenRyan

Добро пожаловать в мой блог, чтобы получить первое обновлениеblog.tity.online

Мой гитхаб:StevenEco