Основы машинного обучения — логистическая регрессия

машинное обучение искусственный интеллект
Основы машинного обучения — логистическая регрессия

"Это 9-й день моего участия в ноябрьском испытании обновлений, ознакомьтесь с подробностями события:Вызов последнего обновления 2021 г."

логистическая регрессиятакже известен каклогистическая регрессияанализ, является обобщенным линейнымвозвращениеАналитические модели обычно используются в интеллектуальном анализе данных, экономическом прогнозировании и других областях. Мы знаем, что для регрессииwTxiw^Tx_iДиапазон выходных значений представляет собой диапазон действительных чисел.Для задач классификации мы хотим вывести вероятность предсказания определенной категории.

Мы ввели оценку максимального правдоподобия и максимальную апостериорную оценку ранее, они основаны на частотном MLE и байесовском MAP соответственно, и мы знаем, что MAP добавляет априорные значения к MLE. Сначала рассмотрим, как отобразить диапазон действительных чисел в вероятностное пространство, то есть диапазон значений от 0 до 1. Здесь нужно поговорить о сигмовидной функции

о(z)=11+ez\sigma(z) = \frac{1}{1+e^{-z}}

Посмотрим на график функции

sigmoid.png

Входные данные этой функции представляют собой диапазон действительных чисел, а выходные данные находятся в диапазоне от 0 до 1. С помощью этой функции можно преобразовать вероятность. Здесь мы обсуждаем вероятность, предполагая, что это проблема двух классов, и рассматриваем проблему через условную вероятность, Например, значение y равно 1 и 0 для представления двух категорий, то есть распределения Бернулли, то есть 0 1 проблема.

P1(y=1x)=о(wTx)=11+ewTxP0(y=0x)=1p1=1о(wTx)=ewTx1+ewTxP_1(y=1|x) = \sigma(w^Tx) = \frac{1}{1 + e^{-w^Tx}}\\ P_0(y=0|x) = 1 - p_1 = 1 - \sigma(w^Tx) = \frac{e^{-w^Tx}}{1 + e^{-w^Tx}}\\

Это биномиальное распределение

p(yx)=p1yp01yp(y|x) = p_1^yp_0^{1-y}

Данные можно понимать как условные вероятностиP(YX)P(Y|X)Набор из X выборок, Y — метка, нам дана условная вероятность появления Y в данных X.

w^=аргумент maxwlogP(YX)аргумент maxwlogi=1NP(yixi)\hat{w} = \argmax_w \log P(Y|X)\\ \argmax_w \log \prod_{i=1}^N P(y_i|x_i)\\

Эта совместная вероятность, поскольку каждое вероятностное событие не зависит друг от друга, может быть записана какgi=1NP(yixi)g \prod_{i=1}^N P(y_i|x_i)

аргумент maxw=i=1N(yilogp1+(1yi)logp0)\argmax_w = \sum_{i=1}^N(y_i \log p_1 + (1-y_i)\log p_0)\\
f(xi;w)=11+ewTxf(x_i;w) = \frac{1}{1 + e^{-w^Tx}}
аргумент maxw=i=1N(yilogf(xi;w)+(1yi)log(1f(xi;w)))\argmax_w = \sum_{i=1}^N(y_i \log f(x_i;w) + (1-y_i)\log (1 - f(x_i;w)))\\

Таким образом, его труднее всего преобразовать Добавление отрицательного знака является перекрестной энтропией, поэтому мы можем использовать логистическую регрессию для решения задач классификации.