Персептрон

@(алгоритм машинного обучения)

@[toc]

Обзор

Персептрон был предложен Розенблаттом в 1957 году. Он является основой нейронной сети и машины опорных векторов и имеет важное значение для обучения нейронных сетей и глубокого обучения. Персептрон представляет собой модель линейной классификации для двухклассовой классификации.Его входом является вектор признаков экземпляра, а выходом является класс экземпляра, принимающий значения +1 и -1. Персептрон соответствует гиперплоскости разделения, которая делит экземпляры на положительные и отрицательные классы во входном пространстве (пространстве признаков) и принадлежит дискриминационной модели. Целью обучения персептрона является нахождение гиперплоскости, которая линейно делит обучающие данные.С этой целью вводится функция потерь, основанная на неправильной классификации, и метод градиентного спуска используется для минимизации функции потерь для получения модели персептрона. Алгоритм персептрона прост и удобен в реализации, и его можно разделить на примитивную форму и двойственную форму.

модель персептрона

Определение: Предположим, что входное пространство (пространство признаков) равно $X \in R^n$ , выходное пространство $Y\in \{+1, -1\}$ ,входить $x\in X$ Вектор признаков, представляющий экземпляр, представляет собой точку во входном пространстве (пространстве признаков); $y \in Y$ Представляет класс экземпляра. Из входного пространства в выходное пространство с помощью следующей функции:

$y = sign(w*x+b)$

Функция называется перцептроном, где w и b — параметры, $w \in R^n$ Он называется весовым или весовым вектором, $b \in R$ Это называется смещением, w * R представляет собой внутренний продукт w и R, а знак — это функция знака, то есть

$\begin{equation} sign(x) = \begin{cases} +1 & \mbox{if x >= 0}\\ -1 & \mbox{if x< 0} \end{cases} \end{equation}$

стратегия обучения персептрона

Предполагая, что набор обучающих данных является линейно разделимым, цель обучения персептрона состоит в том, чтобы найти гиперплоскость разделения, которая может полностью разделить положительные и отрицательные точки экземпляра набора обучающих данных. Чтобы найти такую гиперплоскость, т. е. необходимо определить параметры w и b модели, а также необходимо определить стратегию обучения, т. е. определить эмпирическую функцию потерь и минимизировать функцию потерь.

Выбор функции потерь:

Количество неправильно классифицированных точек: Недостаток: такая функция потерь не является постоянно доступной функцией параметров w и b, и ее нелегко оптимизировать;
Расстояние от ошибочно классифицированной точки до гиперплоскости: это подход, используемый персептроном.

Расчет функции потерь

поле ввода $R^n$ любая точка $x_0$ Расстояние до гиперплоскости S:

$y = \dfrac{1}{||w||}|w*x_0 + b|$ здесь, ${||w||}$ – L2-норма слова w;

Расчет расстояния: для неправильно классифицированных точек $(x_i, y_i)$ объяснять,

$-y_i(w*x_i + b) > 0$

Общее расстояние от ошибочно классифицированных точек до гиперплоскости составляет, если предположить, что M представляет собой набор неправильно классифицированных точек:

$y = \dfrac{1}{||w||} \sum_{x_i in M}|w*x_0 + b|$

Не рассматривать $y = \dfrac{1}{||w||}$ , функция потерь персептрона получается

Алгоритмы обучения персептрона

$\min_{w,b}L(w,b) = - \sum_{x_i \in M}y_i(w*x_i + b)$

первоначальная форма

Алгоритмы обучения персептрона основаны на неправильной классификации с использованием стохастического градиентного спуска. Сначала произвольно выбираем гиперплоскость $w_0, b_0$ , а затем использовать метод градиентного спуска для непрерывной минимизации вышеуказанной целевой функции; процесс минимизации заключается не в том, чтобы сделать градиентный спуск всех ошибочно классифицированных точек в M за один раз, а в том, чтобы случайным образом выбрать ошибочно классифицированную точку для градиентного спуска в время. Найдите градиент (частную производную) целевой функции

$\nabla_wL(w,b) = - \sum_{x_i \in M}y_ix_i$ $\nabla_bL(w,b) = - \sum_{x_i \in M}y_i$

Затем случайным образом выберите неправильно классифицированную точку, чтобы обновить w и b; Градиентный спуск уже был представлен ранее и здесь не будет.

двойная форма

введен позже;