план содержания
Персептрон
1.1 Определение персептрона
1.2 Алгоритм обучения персептрона
1.2.1 Линейная разделимость наборов данных
1.2.2 Функция потерь персептрона
1.2.3 Первоначальная форма алгоритма обучения персептрона
1.2.4 Двойная форма алгоритма обучения персептрона
1.2.4.1 От примитивного к двойному
1.2.4.2 Алгоритмы обучения в двойной форме
1.3 Почему обучение персептрона сходится?
1.4 Примеры
Варианты персептронов
Персептрон для голосования
средний персептрон
4.1 Определения
4.2 Алгоритм обучения
Структурированный персептрон
5.1 Структурированное обучение
5.1.1 Определение структурированного обучения
5.1.1.1 Общая структура обработки
5.1.1.2 Вероятностная интерпретация общей схемы
5.1.2 Три проблемы, которые необходимо решить с помощью структурированного обучения
5.2 Структурированный персептрон
5.2.1 Определение структурированного персептрона
5.2.2 Обучение структурированного персептрона
5.2.2.1 Стратегия обучения структурированного перцептрона
5.2.2.2 Алгоритм обучения структурированного персептрона
использованная литература
1. Персептрон
Perceptron — это модель линейной классификации для задач бинарной классификации.Его вход — вектор признаков, представляющий выборочные признаки, а его выход — положительный или отрицательный класс, представляющий выборочную классификацию.
1.1 Определение персептрона
Предположим, что входное пространство признаков равно X ⊆ R n , выходное пространство Y = { − 1 , + 1 } . входить x ⃗ е X представляет вектор признаков образца, соответствующий точке в пространстве признаков, вывод y е Y Представляет класс выборки. Тогда функция из входного пространства в выходное пространство выглядит следующим образом: y = f ( x ) = s i g n ( w ⃗ ⋅ x ⃗ + b ) называется перцептроном. в, x ⃗ - вектор входных признаков, y выходной класс, представляющий положительный или отрицательный класс, w ⃗ е R n называется весовым вектором, b е R называется предвзятостью, s i g n ( z ) символическая функция, т. s i g n ( z ) = { + 1 , if z ≥ 0 − 1 , if z < 0 \begin{aligned} & Предположим, что входное пространство признаков равно X \subseteq R^n, а выходное пространство равно Y=\{-1, +1\}. \\ & input \vec{x} \in X представляет собой вектор признаков образца, соответствующий точке в пространстве признаков, \\ & output y \in Y представляет категорию образца. Тогда следующая функция из входного пространства в выходное пространство: \\ & \boxed{y = f(x) = sign(\vec{w} \cdot \vec{x} + b)} \\ & называется персептроном. Среди них \vec{x} — вектор входных признаков, y — выходная категория, представляющая положительный или отрицательный класс, \\ & \vec{w} \in R^n называется вектором весов, b \in R — называется частичным множеством, sign(z) является функцией знака, т.е. \text{if } z \lt 0 \end{case} } \end{aligned} Подделка Предполагать терять входить из специальный подписать нулевой между да X ⊆ R n , терять вне нулевой между да Y = { − 1 , + 1 } . терять входить x е X поверхность Показывать определенный Кусок Образец Книга из специальный подписать В направлении количество , правильно отвечать В специальный подписать нулевой между из определенный Кусок точка , терять вне y е Y поверхность Показывать Образец Книга из своего рода не надо . но Зависит от терять входить нулевой между прибыть терять вне нулевой между из как Вниз письмо номер : y = f ( x ) = s i g n ( w ⋅ x + b ) сказать за Чувствовать Знать машина . Тот середина , x да терять входить из специальный подписать В направлении количество , y да поколение поверхность просто своего рода или груз своего рода из терять вне своего рода не надо , w е R n сказать за правильно Тяжелый В направлении количество , b е R сказать за частичный набор , s i g n ( z ) за символ Нет письмо номер , который s i g n ( z ) = { + 1 , if z ≥ 0 − 1 , if z < 0
1.2 Алгоритм обучения персептрона
Персептрон соответствует разделению выборок на положительные и отрицательные категории во входном пространстве признаков.Разделяющая гиперплоскость , которые относятся к дискриминационной модели.
1.2.1 Линейная разделимость наборов данных
учитывая набор данных T = { ( x 1 ⃗ , y 1 ) , ( x 2 ⃗ , y 2 ) , … , ( x n ⃗ , y n ) } , в x i е R n , y i е Y = { − 1 , + 1 } , i е [ 1 , n ] , если есть гиперплоскость S : w ⃗ ⋅ x ⃗ + b = 0 Положительные и отрицательные точки выборки набора данных можно правильно разделить на две стороны гиперплоскости, а именно для всех положительных классов i образцы, есть w ⃗ ⋅ x i ⃗ + b > 0 , для всех отрицательных классов i образцы, есть w ⃗ ⋅ x i ⃗ + b < 0 , Затем набор данных вызывается T является линейно разделимым набором данных, иначе он называется линейно неразделимым. \begin{align} & Учитывая набор данных T=\{(\vec{x_1}, y_1), (\vec{x_2}, y_2), \dots, (\vec{x_n}, y_n)\}, \\ & где x_i \in R^n, y_i \in Y=\{-1, +1\}, i \in [1, n], если существует гиперплоскость \\ & \boxed{S: \ vec{w } \cdot \vec{x} + b = 0} \\ & может правильно разделить положительные и отрицательные точки выборки набора данных по обеим сторонам гиперплоскости, то есть \\ & для всех положительных выборок класс имеет \vec{w} \cdot \vec{x_i} + b > 0, \\ & i-я выборка всех отрицательных классов имеет \vec{w} \cdot \vec{x_i } + b давать Конечно один Кусок номер в соответствии с набор T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) } , Тот середина x i е R n , y i е Y = { − 1 , + 1 } , i е [ 1 , n ] , как фрукты реальный существует определенный Кусок обогнать плоский лапша S : w ⋅ x + b = 0 может достаточно будет номер в соответствии с набор из просто своего рода Образец Книга точка и груз своего рода Образец Книга точка просто Конечно земля Рисовать Минута прибыть обогнать плоский лапша из два боковая сторона , который правильно Место имеют просто своего рода из первое i Кусок Образец Книга , имеют w ⋅ x i + b > 0 , правильно Место имеют груз своего рода из первое i Кусок Образец Книга , имеют w ⋅ x i + b < 0 , Тот Какие Сразу сказать номер в соответствии с набор T за Нить секс Может Минута из номер в соответствии с набор , нет но , сказать за Нить секс Нет Может Минута из .
1.2.2 Функция потерь персептрона
Цель обучения персептрона состоит в том, чтобы найти гиперплоскость разделения S, которая может линейно разделить обучающий набор в предположении, что обучающий набор является линейно отделимым, По этой причине стратегия обучения персептрона состоит в том, чтобы выбрать функцию потерь и объединить Функция потерь Минимизация, принять параметры на момент минимизации в качестве окончательных параметров модели.
Итак, вопрос в том, как выбрать функцию потерь?
Естественное решение состоит в том, чтобы выбрать общее количество неправильно классифицированных точек выборки, то есть постоянно уменьшать общее количество ошибочно классифицированных точек выборки во время обучения. Однако такая функция потерь не является непрерывно дифференцируемой функцией весов и смещений, и методы оптимизации, такие как градиентный спуск, не могут использоваться для получения минимального значения Поэтому персептрон использует метод, используемый для измерения ошибочно классифицированных точек выборки до разделения гиперплоскость Метод полного расстояния как функции потерь.
Так как это для измерения расстояния, то сначала дайте входное пространство R n любая точка в x i к гиперплоскости S расстояние, Предположим, что уравнение гиперплоскости имеет вид w ⃗ ⋅ x ⃗ + b = 0 : 1 ∣ ∣ w ⃗ ∣ ∣ ∣ w ⃗ ⋅ x i ⃗ + b ∣ в ∣ ∣ w ⃗ ∣ ∣ как вектор w ⃗ из L 2 норма. Потому что, когда модель будет сэмплировать точки ( x i , y i ) ошибочно классифицирован как ( x i , y i ^ ) когда есть y i ^ = − y i Также из-за y i ^ = { + 1 , w ⃗ ⋅ x i ⃗ + b ≥ 0 − 1 , w ⃗ ⋅ x i ⃗ + b < 0 так y i ^ ( w ⃗ ⋅ x i ⃗ + b ) = − y i ( w ⃗ ⋅ x i ⃗ + b ) ≥ 0 так ∣ w ⃗ ⋅ x i ⃗ + b ∣ = − y i ( w ⃗ ⋅ x i ⃗ + b ) Итак, неправильно классифицированные точки выборки ( x i , y i ^ ) к разделяющей гиперплоскости S Расстояние: − 1 ∣ ∣ w ⃗ ∣ ∣ y i ( w ⃗ ⋅ x i ⃗ + b ) Наконец, игнорировать w ⃗ из L 2 норма, предполагая, что набор ошибочно классифицированных точек выборки модели M , тогда все Неправильно классифицированные точки гиперплоскости S Полное расстояние , то есть окончательная функция потерь: L ( w ⃗ , b ) = − ∑ ( x i , y i ) е M y i ( w ⃗ ⋅ x i ⃗ + b ) \begin{aligned} & Поскольку это мера расстояния, сначала укажите расстояние от любой точки x_i во входном пространстве R^n до гиперплоскости S, \\ & Предположим, что уравнение гиперплоскости равно \vec{w} \cdot \vec {x} + b = 0: \\ & \boxed{\frac{1}{||\vec{w}||}|\vec{w} \cdot \vec{x_i} + b| } \\ & Где ||\vec{w}|| — норма L_2 вектора \vec{w}. \\ & Поскольку, когда модель ошибочно классифицирует точку выборки (x_i, y_i) как (x_i, \hat{y_i}), возникает \boxed{\hat{y_i}=-y_i} \\ & И потому что \\boxed{ \hat{y_i} = \begin{case} +1, \ \vec{w} \cdot \vec{x_i} + b \ge 0 \\ -1, \ \vec{w} \cdot \vec{x_i} + b \lt 0 \end{cases} } \\ & so \\boxed{\hat{y_i}(\vec{w} \cdot \vec{x_i} + b) = -y_i(\vec{w} \ cdot \vec{x_i} + b) \ge 0} \\ & так \\boxed{|\vec{w} \cdot \vec{x_i} + b| = -y_i(\vec{w} \cdot \vec {x_i} + b)} \\ & So \ Расстояние от ошибочно классифицированной точки выборки (x_i, \hat{y_i}) до разделяющей гиперплоскости S равно: \\ & \boxed{-\frac{1}{|| \vec{w}||}y_i(\vec{w}\ \cdot \vec{x_i} + b)} \\ & Наконец, игнорируйте норму L_2 для \vec{w}, предполагая неправильно классифицированные точки выборки модели. равно M, то общее расстояние от всех \\ & ошибочно классифицированных точек до гиперплоскости S, то есть окончательная функция потерь: \\ & \boxed{L(\vec{w}, b)=-\sum_{ ( x_i, y_i) \in M}y_i(\vec{w}\ \cdot \vec{x_i} + b)} \\ \end{aligned} теперь, когда Конечно да остаток средств количество расстояние Уехать , Тот Какие , Первый давать вне терять входить нулевой между R n середина назначать значение один точка x i прибыть обогнать плоский лапша S из расстояние Уехать , Подделка Предполагать обогнать плоский лапша из квадратный Процедура за w ⋅ x + b = 0 : ∣ ∣ w ∣ ∣ 1 ∣ w ⋅ x i + b ∣ Тот середина ∣ ∣ w ∣ ∣ за В направлении количество w из L 2 Вентилятор номер . так как за когда плесень тип будет Образец Книга точка ( x i , y i ) ошибка Минута своего рода за ( x i , y i ^ ) Время , имеют y i ^ = − y i снова так как за y i ^ = { + 1 , w ⋅ x i + b ≥ 0 − 1 , w ⋅ x i + b < 0 Место от y i ^ ( w ⋅ x i + b ) = − y i ( w ⋅ x i + b ) ≥ 0 Место от ∣ w ⋅ x i + b ∣ = − y i ( w ⋅ x i + b ) Место от ошибка Минута своего рода из Образец Книга точка ( x i , y i ^ ) прибыть Минута Уехать обогнать плоский лапша S из расстояние Уехать за : − ∣ ∣ w ∣ ∣ 1 y i ( w ⋅ x i + b ) самый Задний , вдруг, внезапно немного w из L 2 Вентилятор номер , Подделка Предполагать плесень тип из ошибка Минута своего рода Образец Книга точка из набор комбинировать за M , Тот Какие Место имеют из ошибка Минута своего рода точка прибыть обогнать плоский лапша S из Всего расстояние Уехать который самый конец из повреждать терять письмо номер за : L ( w , b ) = − ( x i , y i ) е M ∑ y i ( w ⋅ x i + b )
1.2.3 Первоначальная форма алгоритма обучения персептрона
Вход: тренировочный набор T = { ( x 1 ⃗ , y 1 ) , ( x 2 ⃗ , y 2 ) , … , ( x n ⃗ , y n ) } ,в x i ⃗ е R n , y i е Y = { − 1 , + 1 } , i е [ 1 , n ] , скорость обучения η е [ 0 , 1 ] Выход: функция потерь L ( w ⃗ , b ) по минимальной стоимости w ⃗ и b , и модель персептрона f ( x ) = s i g n ( w ⃗ ⋅ x ⃗ + b ) ( 1 ) Случайно выбранных w ⃗ = w ⃗ 0 и b = b 0 (Его также можно грубо установить на 0 ); ( 2 ) Выберите случайную выборку из обучающей выборки ( x i ⃗ , y i ) ; ( 3 ) рассчитать y i ^ = s i g n ( w ⃗ ⋅ x i ⃗ + b ) ; ( 4 ) если y i ^ ≠ y i : Используйте следующую формулу расчета градиента, чтобы вычислить градиент функции потерь в текущей точке выборки: { ∂ L ∂ w ∣ ( x i , y i ) = − y i x i ∂ L ∂ b ∣ ( x i , y i ) = − y i Затем используйте градиент для обновления параметров: { w ⃗ ← w ⃗ − η ∂ L ∂ w ∣ ( x i , y i ) = w ⃗ + η y i x i b ← b − η ∂ L ∂ b ∣ ( x i , y i ) = b + η y i ( 5 ) перенаправить на ( 2 ) , пока в обучающем наборе не останется ошибочно классифицированных точек выборки. \begin{align} & Input: обучающий набор T=\{(\vec{x_1}, y_1), (\vec{x_2}, y_2), \dots, (\vec{x_n}, y_n)\}, где \vec{x_i} \in R^n, \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ y_i \in Y=\{-1, +1\}, i \in [1, n] , скорость обучения \eta \in [0, 1]\\ & Выход: \vec{w} и b, когда функция потерь L(\vec{w}, b) принимает минимальное значение, \\ & \ \ \ \ \ \ \ \ \ \ \ \ и модель персептрона f(x)=sign(\vec{w} \cdot \vec{x} + b) \\ & (1) случайно выбранные \vec{w} = \vec {w}_0 и b = b_0 (также можно грубо установить равным 0); \\ & (2) случайным образом выбрать образец в обучающем наборе (\vec{x_i}, y_i); \\ & (3) вычислить \ hat {y_i}=sign(\vec{w} \cdot \vec{x_i} + b); \\ & (4) if \hat{y_i} \neq y_i: \\ & \ \ \ \ \ Используйте следующее вычисление градиента Формула вычисляет градиент функции потерь в текущей точке выборки: y_i)=-y_ix_i \\\frac{\partial L}{\partial b}|_(x_i, y_i)=-y_i \end{cases} } \\ & \ \ \ \ \ Затем используйте градиент для обновления параметры: \\ & \ \ \ \ \ \boxed{ \begin{cases} \vec{w} \gets \vec{w} - \eta \frac{\partial L}{\partial w}|_(x_i, y_i) = \vec{w} + \eta y_i x_i \\ b \gets b - \eta \frac{\partial L}{\partial b}|_(x_i, y_i) = b + \eta y_i \end{ case} }\\ & (5) Перейти к (2) до тех пор, пока в обучающем наборе не останется ошибочно классифицированных точек выборки. \end{выровнено} терять входить : обучение упражняться набор T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) } , Тот середина x i е R n , y i е Y = { − 1 , + 1 } , i е [ 1 , n ] , учиться привычка Ставка η е [ 0 , 1 ] терять вне : повреждать терять письмо номер L ( w , b ) Выбирать столб маленький ценность Время из w и b , от и Чувствовать Знать машина плесень тип f ( x ) = s i g n ( w ⋅ x + b ) ( 1 ) следить машина Выбрать Выбирать w = w 0 и b = b 0 ( также Может от Нефть жестокий земля Предполагать набор за 0 ) ; ( 2 ) существует обучение упражняться набор середина следить машина Выбрать Выбирать один Кусок Образец Книга ( x i , y i ) ; ( 3 ) считать Рассчитать y i ^ = s i g n ( w ⋅ x i + b ) ; ( 4 ) как фрукты y i ^ = y i : сделать использовать как Вниз лестница Тратить считать Рассчитать мужчина Режим считать Рассчитать повреждать терять письмо номер существует когда вперед Образец Книга точка из лестница Тратить : { ∂ w ∂ L ∣ ( x i , y i ) = − y i x i ∂ b ∂ L ∣ ( x i , y i ) = − y i Конечно Задний сделать использовать лестница Тратить Четное новый женьшень номер : { w ← w − η ∂ w ∂ L ∣ ( x i , y i ) = w + η y i x i b ← b − η ∂ b ∂ L ∣ ( x i , y i ) = b + η y i ( 5 ) Прыжок изменять прибыть ( 2 ) , прямой прибыть обучение упражняться набор середина Нет имеют ошибка Минута своего рода из Образец Книга точка за конец .
1.2.4 Двойная форма алгоритма обучения персептрона
Мы знаем, что в исходном виде точки выборки ( x ⃗ , y ) выбирается случайным образом, то можно сказать, что Вектор признаков выборочной точки извлекается много раз, при этом также можно сказать, что модель находится в этом Множественные неправильные классификации вектора признаков. Ключевая идея двойственной формы заключается в том, что она использует вектор t ⃗ = ( t 1 , t 2 , … , t n ) T ( n для точки выборки число) для записи каждого вектора признаков x ⃗ количество ошибочных классификаций. \begin{aligned} & Мы знаем, что в исходной форме точки выборки (\vec{x}, y) извлекаются случайным образом, тогда можно сказать, что \ & вектор признаков определенной точки выборки извлекается повторно много раз, в то же время также можно сказать, что модель несколько раз неверно классифицировала этот вектор признаков \&. Ключевая идея двойственной формы \\& заключается в том, что она использует вектор \vec{t}=(t_1, t_2, \dots, t_n)^T (n - количество точек выборки \\&) для записи каждый вектор признаков Количество раз, когда \vec{x} был неправильно классифицирован. \end{выровнено} я Oни Знать Дорога , существует Оригинал начало форма Режим внутри Образец Книга точка ( x , y ) да следить машина дым Выбирать вне Приходить из , Тот Какие Сразу имеют Может может Сказать определенный Кусок Образец Книга точка из специальный подписать В направлении количество одеяло Тяжелый сложный многие второсортный дым Выбирать вне Приходить , такой же Время , также имеют Может может Сказать плесень тип существует Этот Кусок специальный подписать В направлении количество начальство многие второсортный ошибка Минута своего рода . правильно я форма Режим из Закрыть ключ считать Дорога Сразу да , Это сделать использовать один Кусок В направлении количество t = ( t 1 , t 2 , … , t n ) T ( n за Образец Книга точка из Кусок номер ) Приходить Помните записывать Каждый Кусок специальный подписать В направлении количество x одеяло ошибка Минута своего рода из второсортный номер .
1.2.4.1 От примитивного к двойному
Первоначальная форма алгоритма обучения использует следующую формулу для обновления параметров:
{ w ⃗ ← w ⃗ + η y i x i b ← b + η \begin{aligned} & \boxed{ \begin{cases} \vec{w} \gets \vec{w} + \eta y_i x_i \\ b \gets b + \eta \end{cases} } \end{aligned} { w ← w + η y i x i b ← b + η
Теперь предположим
w ⃗ = 0 , b = 0 , и точка выборки ( x i ⃗ , y i ) неправильно классифицированный t i второсортный \begin{align} \boxed{\vec{w}=0,\b=0}, и точка выборки (\vec{x_i}, y_i) была неправильно классифицирована t_i раз \\ \end{align} w = 0 , b = 0 , от и определенный Кусок Образец Книга точка ( x i , y i ) одеяло ошибка Минута своего рода охватывать t i второсортный
Тогда параметры модели можно записать в виде:
{ w ⃗ = ∑ i = 1 n t i η y i x i b = ∑ i = 1 n t i η y i \begin{aligned} & \boxed{ \begin{cases} \vec{w} = \sum_{i=1}^{n} t_i \eta y_i x_i \\ b = \sum_{i=1}^{n} t_i \eta y_i \end{cases} } \end{aligned} { w = ∑ i = 1 n t i η y i x i b = ∑ i = 1 n t i η y i
Наконец, параметры модели, которые необходимо изучить, следующие: w ⃗ и b становится элементом t i ( i е [ 1 , n ] ) вектор t ⃗ . \begin{aligned} & Наконец, изучаемые параметры модели заменяются с \vec{w} и b на вектор \vec{t}, элементами которого являются t_i(i \in [1, n]). \end{выровнено} самый конец , необходимость хотеть учиться привычка из плесень тип женьшень номер Сразу от w и b Изменять стать Юань белый да t i ( i е [ 1 , n ] ) из В направлении количество t .
1.2.4.2 Алгоритмы обучения в двойной форме
Вход: тренировочный набор T = { ( x 1 ⃗ , y 1 ) , ( x 2 ⃗ , y 2 ) , … , ( x n ⃗ , y n ) } ,в x i ⃗ е R n , y i е Y = { − 1 , + 1 } , i е [ 1 , n ] , скорость обучения η е [ 0 , 1 ] Выход: функция потерь L ( w ⃗ , b ) по минимальной стоимости t ⃗ , и модель персептрона f ( x ⃗ ) = s i g n ( ∑ j = 1 n t j η y j x j ⃗ x ⃗ + ∑ j = 1 n t j η y j ) ( 1 ) инициализация t ⃗ = 0 ; ( 2 ) Выбор точки выборки случайным образом ( x i ⃗ , y i ) ; ( 3 ) y i ^ = s i g n ( ∑ j = 1 n t j η y j x j ⃗ x ⃗ + ∑ j = 1 n t j η y j ) ; ( 4 ) если y i ^ ≠ y i : Параметры обновления: t i ← t i + 1 ( 5 ) перенаправить на ( 2 ) , пока не останется ошибочно классифицированных точек выборки. \begin{align} & Input: обучающий набор T=\{(\vec{x_1}, y_1), (\vec{x_2}, y_2), \dots, (\vec{x_n}, y_n)\}, где \vec{x_i} \in R^n, \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ y_i \in Y=\{-1, +1\}, i \in [1, n] , скорость обучения \eta \in [0, 1]\\ & вывод: \vec{t}, когда функция потерь L(\vec{w}, b) принимает минимальное значение, а модель персептрона \\ & \ \ \ \ \ \ \ \ \ \ \ \ f(\vec{x})=sign(\sum_{j=1}^{n} t_j \eta y_j \vec{x_j} \vec{x} + \sum_ { j=1}^{n} t_j \eta y_j) \\ & (1) Инициализация \vec{t} = 0; \\ & (2) Произвольный выбор точки выборки (\vec{x_i}, y_i); \ \ & (3) \hat{y_i} = sign(\sum_{j=1}^{n} t_j \eta y_j \vec{x_j} \vec{x} + \sum_{j=1}^{n} t_j \eta y_j); \\ & (4) if \hat{y_i} \neq {y_i}: \\ & \ \ \ \ \ обновить параметры: t_i \gets t_i + 1 \\ & (5) перейти Перейти к (2) до тех пор, пока не останется ошибочно классифицированных точек выборки. \end{выровнено} терять входить : обучение упражняться набор T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) } , Тот середина x i е R n , y i е Y = { − 1 , + 1 } , i е [ 1 , n ] , учиться привычка Ставка η е [ 0 , 1 ] терять вне : повреждать терять письмо номер L ( w , b ) Выбирать столб маленький ценность Время из t , от и Чувствовать Знать машина плесень тип f ( x ) = s i g n ( j = 1 ∑ n t j η y j x j x + j = 1 ∑ n t j η y j ) ( 1 ) рано начало изменять t = 0 ; ( 2 ) следить машина Выбрать Выбирать один Кусок Образец Книга точка ( x i , y i ) ; ( 3 ) y i ^ = s i g n ( j = 1 ∑ n t j η y j x j x + j = 1 ∑ n t j η y j ) ; ( 4 ) как фрукты y i ^ = y i : Четное новый женьшень номер : t i ← t i + 1 ( 5 ) Прыжок изменять прибыть ( 2 ) , прямой прибыть Нет имеют ошибка Минута своего рода из Образец Книга точка за конец .
1.3 Почему обучение персептрона сходится?
Процесс доказательства сходимости см. в разделе 2.3.2 «Статистических методов обучения» (второе издание). Вывод, сделанный в книге, таков:
Когда обучающая выборка линейно отделима, количество ошибочных классификаций K при итеративном обучении имеет верхнюю границу, и гиперплоскость разделения, которая полностью правильно разделяет обучающую выборку, может быть найдена после конечного числа поисков;
Когда обучающая выборка линейно неделима, алгоритм обучения не может сходиться, и результат итерации будет колебаться.
1.4 Примеры
Продолжение следует, ждите
2. Варианты персептронов
проголосовал персептрон
Усредненный персептрон
Структурированный персептрон
3. Персептрон для голосования
Как упоминалось выше, персептрон будет обновлять параметры (веса и смещения) один раз в каждой итерации обучения, то есть на каждой итерации генерируется новая модель, если вы хотите знать, какая модель лучше, простое решение состоит в том, сравните новую модель со старой моделью в новом наборе данных и, если новая модель более точна, замените старую модель новой моделью. В общем, новая модель лучше, чем старая модель, поэтому еще один лучший способ - сохранить модель и уровень точности для нового набора данных для каждой итерации.При прогнозировании каждая модель дает свои собственные результаты прогнозирования, а при В то же время используйте соответствующие показатели точности в качестве веса, умножьте соответствующие результаты прогнозирования на средневзвешенный результат и, наконец, вычислите, какая модель имеет самый высокий конечный результат, и используйте самый высокий результат в качестве окончательного результата прогнозирования, чтобы восприятие операции машина называетсяПерсептрон для голосования .
4. Средний персептрон
Поскольку персептрон голосования должен сохранять параметры каждого раунда итерации и соответствующую точность, и в то же время должен выполнять дополнительный расчет средневзвешенного значения во время предсказания, он не является элегантным с точки зрения временной сложности и пространственной сложности. предложить более отличныйсредний персептрон : Инициализируйте сумму параметров перед итерацией, добавьте обновленное значение параметра к сумме параметров в каждой итерации и разделите сумму параметров на количество итераций после итерации, чтобы получить окончательную модель.
4.1 Определения
Определение среднего персептрона такое же, как и у обычного персептрона, но алгоритм обучения отличается.
4.2 Алгоритм обучения
Вход: тренировочный набор T = { ( x 1 ⃗ , y 1 ) , ( x 2 ⃗ , y 2 ) , … , ( x n ⃗ , y n ) } ,в x i е R n , y i е Y = { − 1 , + 1 } , i е [ 1 , n ] , скорость обучения η е [ 0 , 1 ] вывод: итерация N За рулем w ⃗ и b соответствующие средние значения и модель персептрона f ( x ⃗ ) = s i g n ( w ⃗ ⋅ x ⃗ + b ) ( 1 ) инициализация w ⃗ совокупная сумма s w ⃗ а также b совокупная сумма s b ; ( 2 ) Случайно выбранных w ⃗ = w ⃗ 0 и b = b 0 (Его также можно грубо установить на 0 ); ( 3 ) Выберите случайную выборку из обучающей выборки ( x i , y i ) ; ( 4 ) рассчитать y i ^ = s i g n ( w ⃗ ⋅ x i ⃗ + b ) ; ( 5 ) если y i ^ ≠ y i : Используйте следующую формулу расчета градиента, чтобы вычислить градиент функции потерь в текущей точке выборки: { ∂ L ∂ w ∣ ( x i , y i ) = − y i x i ∂ L ∂ b ∣ ( x i , y i ) = − y i Затем используйте градиент для обновления параметров: { w ⃗ ← w ⃗ − η ∂ L ∂ w ∣ ( x i , y i ) = w ⃗ + η y i x i b ← b − η ∂ L ∂ b ∣ ( x i , y i ) = b + η y i Затем добавьте два кумулянта: { s w ⃗ ← s w ⃗ + w ⃗ s b ← s b + b ( 6 ) перенаправить на ( 2 ) , пока в обучающей выборке не останется ошибочно классифицированных точек выборки; ( 7 ) рассчитать w ⃗ и b среднее из: { w ⃗ ‾ = s w ⃗ N b ‾ = s b N \begin{align} & Input: обучающий набор T=\{(\vec{x_1}, y_1), (\vec{x_2}, y_2), \dots, (\vec{x_n}, y_n)\}, где x_i \in R^n, \\ & \ \ \ \ \ \ \ \ \ \ \ \ y_i \in Y=\{-1, +1\}, i \in [1, n], скорость обучения \ eta \in [0, 1]\\ & вывод: соответствующие средние значения \vec{w} и b после N итераций, а также модель персептрона \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ f (\vec {x})=sign(\vec{w} \cdot \vec{x} + b) \\ & (1) Инициализировать кумулянты \vec{w}\vec{s_w} и кумулянты b s_b;\ \ & (2) случайным образом выбрать \vec{w} = \vec{w}_0 и b = b_0 (также можно грубо установить равным 0);\\ & (3) случайным образом выбрать выборку в обучающем наборе ( x_i, y_i); \\ & (4) вычислить \hat{y_i}=sign(\vec{w} \cdot \vec{x_i} + b); \\ & (5) если \hat{y_i} \neq y_i: \\ & \ \ \ \ \ Используйте следующую формулу расчета градиента для расчета градиента функции потерь в текущей точке выборки: \\ & \ \ \ \ \ \boxed{ \begin{cases} \frac{\partial L }{\ partial w}|_(x_i, y_i)=-y_ix_i \\ \frac{\partial L}{\partial b}|_(x_i, y_i)=-y_i \end{cases}} \\ & \ \ \ \ \ Затем используйте градиент для обновления параметров: \\ & \ \ \ \ \ \boxed{ \begin{cases} \vec{w} \gets \vec{w} - \eta \frac{\partial L }{\partial w} |_(x_i, y_i) = \vec{w} + \eta y_i x_i \\ b \gets b - \eta \frac{\partial L}{\partial b}|_(x_i, y_i) = b + \ eta y_i \end{cases} }\\ & \ \ \ \ \ Затем добавьте два кумулянта: \boxed{ \begin{cases} \vec{s_w} \gets \vec{s_w} + \vec{w} \\ s_b \gets s_b + b \end{cases} } \\ & (6) Переход к (2) до тех пор, пока в обучающая выборка До классифицированных точек выборки \\ & (7) Вычислить среднее значение \vec{w} и b: \boxed{ \begin{case} \overline{\vec{w}} = \frac{\vec {s_w} }{N} \\ \overline b = \frac{s_b}{N} \end{case} } \end{aligned} терять входить : обучение упражняться набор T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) } , Тот середина x i е R n , y i е Y = { − 1 , + 1 } , i е [ 1 , n ] , учиться привычка Ставка η е [ 0 , 1 ] терять вне : повторять поколение N рулевое колесо Задний w и b каждый поскольку из плоский все ценность , от и Чувствовать Знать машина плесень тип f ( x ) = s i g n ( w ⋅ x + b ) ( 1 ) рано начало изменять w из усталый продукт количество s w от и b из усталый продукт количество s b ; ( 2 ) следить машина Выбрать Выбирать w = w 0 и b = b 0 ( также Может от Нефть жестокий земля Предполагать набор за 0 ) ; ( 3 ) существует обучение упражняться набор середина следить машина Выбрать Выбирать один Кусок Образец Книга ( x i , y i ) ; ( 4 ) считать Рассчитать y i ^ = s i g n ( w ⋅ x i + b ) ; ( 5 ) как фрукты y i ^ = y i : сделать использовать как Вниз лестница Тратить считать Рассчитать мужчина Режим считать Рассчитать повреждать терять письмо номер существует когда вперед Образец Книга точка из лестница Тратить : { ∂ w ∂ L ∣ ( x i , y i ) = − y i x i ∂ b ∂ L ∣ ( x i , y i ) = − y i поймать написать сделать использовать лестница Тратить Четное новый женьшень номер : { w ← w − η ∂ w ∂ L ∣ ( x i , y i ) = w + η y i x i b ← b − η ∂ b ∂ L ∣ ( x i , y i ) = b + η y i Конечно Задний усталый добавлять два Кусок усталый продукт количество : { s w ← s w + w s b ← s b + b ( 6 ) Прыжок изменять прибыть ( 2 ) , прямой прибыть обучение упражняться набор середина Нет имеют ошибка Минута своего рода из Образец Книга точка за конец ; ( 7 ) считать Рассчитать w и b из плоский все ценность : { w = N s w b = N s b
5. Структурированный персептрон
Структурированный персептрон — это линейная модель, улучшенная на основе персептрона с целью достижения структурированного обучения.
Далее кратко вводятся базовые знания о структурированном обучении, а затем даются определение и алгоритм обучения структурированного персептрона.
5.1 Структурированное обучение
Мы знаем, что модели, используемые для задач регрессии, будут выводить одно или несколько непрерывных скалярных значений, модели, используемые для задач классификации, будут выводить одно или несколько дискретных значений, представляющих категории или метки, а модели, используемые для структурированной обученной модели, выводят набор данных, которые подчиняется отношению или структуре.
В НЛП тегирование частей речи и синтаксический анализ можно рассматривать как примеры структурированного обучения.Первая модель выводит последовательность частей речи, соответствующую каждому слову предложения, а вторая модель выводит синтаксическое дерево. Мы знаем, что в структуре данных последовательность представляет собой набор наборов данных, которые удовлетворяют линейному отношению один к одному, а дерево — это набор наборов, которые удовлетворяют отношениям один ко многим или многие к одному. Таким образом, значение структуры можно понимать как модель.Выход представляет собой некоторую структуру данных.
5.1.1 Определение структурированного обучения
Цель структурированного обучения состоит в том, чтобы дать входной вектор признаков x ⃗ и соответствующая структура вывода y в случае, найти измеримое x ⃗ и y Функция оценки соответствия f ( x ⃗ , y ) , так что функция подсчета очков может возвращать тот, который имеет наивысший балл при прогнозировании y ^ как вывод. \begin{aligned} & Цель структурированного обучения состоит в том, чтобы найти метод, который может измерить степень соответствия \vec{x} и y с учетом входного вектора признаков \vec{x} и соответствующей выходной структуры y. Функция оценки f (\vec{x}, y), чтобы функция подсчета очков могла возвращать \hat{y} с наивысшим результатом в качестве результата при прогнозировании. \end{выровнено} Морской узел структура изменять учиться привычка из цель отметка Сразу да существует давать Конечно терять входить из специальный подписать В направлении количество x от и правильно отвечать из терять вне Морской узел структура y из Привязанность состояние Вниз , Находить прибыть один Кусок Может от остаток средств количество x и y совпадение совпадение Тратить из ударил Минута письмо номер f ( x , y ) , сделать придется существует до Измерение Время ударил Минута письмо номер Может от возвращение назад Минута номер самый высокий из Тот Кусок y ^ делать за терять вне .
5.1.1.1 Общая структура обработки
Структурированное обучение предполагает обучение ( t r a i n i n g ),предсказывать( p r e d i c t i o n ) или сделать вывод ( i n f e r e n c e ) Два звена, в которых на этапе обучения необходимо ( X , Y ) Найдите тот, который можно использовать в качестве оценки карта функций f ( x , y ) , На этапе прогнозирования необходимо x ⃗ При условии найти структуру с наивысшим баллом y ^ . В общем виде эти два этапа можно представить следующим набором формул: { f ( x , y ) : X × Y → R y ^ = a r g m a x y е Y f ( x , y ) \begin{aligned} & Структурированное обучение состоит из двух этапов: обучение, предсказание или вывод\\ &. На этапе обучения необходимо найти решение, которое можно использовать в качестве обучающего набора (X, Y). Отображение f(x, y) скоринговой функции \\ &, \\ & На этапе прогнозирования необходимо найти структуру с наивысшим баллом \hat{y} при заданном входном признаке \vec{x}. \\ & В общем случае эти две фазы можно представить следующим набором выражений: \\ & \boxed{ \begin{cases} f(x, y): X \times Y \to R \\ \ hat{y } = argmax_{y \in Y}f(x, y) \end{cases} } \end{aligned} Морской узел структура изменять учиться привычка Сумка содержит обучение упражняться ( t r a i n i n g ) , до Измерение ( p r e d i c t i o n ) или толкать сломанный ( i n f e r e n c e ) два Кусок звенеть Фестиваль , Тот середина , существует обучение упражняться приказ часть , необходимость хотеть корень в соответствии с обучение упражняться набор ( X , Y ) Находить прибыть один Кусок может делать за ударил Минута письмо номер из отражать стрелять f ( x , y ) , и существует до Измерение приказ часть , необходимость хотеть существует давать Конечно терять входить специальный подписать x из полоска кусок Вниз , Находить прибыть Минута номер самый высокий из Тот Кусок Морской узел структура y ^ . Всего из Приходить Сказать , Может от использовать один Вниз Этот Группа Режим сын Приходить поверхность Показывать Этот два Кусок приказ часть : { f ( x , y ) : X × Y → R y ^ = a r g m a x y е Y f ( x , y )
5.1.1.2 Вероятностная интерпретация общей схемы
Если два вышеуказанных этапа описать с позиции вероятности, то возможны следующие приблизительные объяснения: { P ( X , Y ) → [ 0 , 1 ] y ^ = a r g m a x y е Y P ( Y ∣ X ) = a r g m a x y е Y P ( X , Y ) P ( X ) ≈ a r g m a x y е Y P ( X , Y ) в тренировочном наборе ( X , Y ) середина, P ( X ) Его можно рассматривать как константу, поэтому есть приближение второй формулы выше. \begin{aligned} & Если два вышеуказанных этапа описать с точки зрения вероятности, они имеют следующую приблизительную интерпретацию: \\ & \boxed{ \begin{cases} P(X, Y) \to [0, 1] \\ \hat{y} = argmax_{y \in Y}P(Y|X) = argmax_{y \in Y} \frac{P(X, Y)}{P(X)} \ приблизительно argmax_{y \in Y}P(X, Y) \end{cases} } \\ & В обучающем наборе (X, Y) P(X) можно рассматривать как константу, поэтому существует аппроксимация второй формулы выше . \end{выровнено} начальство заявил два Кусок приказ часть как фрукты от наверное Ставка из Рог Тратить Приходить след заявил из говорить , имеют как Вниз Закрыть как развязать выпуск : { P ( X , Y ) → [ 0 , 1 ] y ^ = a r g m a x y е Y P ( Y ∣ X ) = a r g m a x y е Y P ( X ) P ( X , Y ) ≈ a r g m a x y е Y P ( X , Y ) существует обучение упражняться набор ( X , Y ) середина , P ( X ) Может от Смотреть делать довольно часто номер , Место от имеют начальство лапша первое два полоска Режим сын из Закрыть как .
5.1.2 Три проблемы, которые необходимо решить с помощью структурированного обучения
Форма скоринговой функции f(X, Y)
Как рассчитать наивысший балл
Учитывая тренировочный набор (X, Y), как определить f (X, Y)
5.2 Структурированный персептрон
5.2.1 Определение структурированного персептрона
Мы знаем, что персептрон — это линейная модель, поэтому, чтобы линейная модель поддерживала структурированное обучение, Во-первых, необходимо определить форму скоринговой функции. Как видно из вышеизложенного, оценочная функция f ( x , y ) нужно два Параметры: входные собственные векторы x ⃗ и структура вывода y . Однако оценочная функция предыдущего персептрона требует только одного параметра x ⃗ : w ⃗ ⋅ x ⃗ + b , то структура y Как это учесть? Ответ заключается в определении новых характеристических функций: ϕ ( x ⃗ , y ) , поставить структуру y также как особенность с исходным вектором признаков x ⃗ объединяются вместе в структурированные векторы признаков. Чтобы функция оценки подчинялась линейной зависимости, функция оценки может быть определена следующим образом: f ( x ⃗ , y ) = w ⃗ ⋅ ϕ ⃗ ( x ⃗ , y ) ,в, ϕ ⃗ представляет собой набор характеристических функций ϕ i состоит из векторов Итак, при прогнозировании: y ^ = a r g m a x y е Y [ ( w ⃗ ⋅ ϕ ⃗ ( x ⃗ , y ) ] \begin{aligned} & Мы знаем, что персептрон является линейной моделью, поэтому, чтобы линейная модель поддерживала структурированное обучение, \\ & должен сначала определить форму функции оценки. Как видно из вышеизложенного, оценочная функция f(x, y) требует двух параметров \\ &: вектора входных признаков \vec{x} и выходной структуры y. \\ & \\ & Однако оценочная функция предыдущего персептрона требует только одного параметра \vec{x}: \vec{w} \cdot \vec{x} + b, тогда как структура y \\ & учитывать шерстяное сукно? Ответ состоит в том, чтобы определить новую функцию признаков: \phi(\vec{x}, y), рассматривать структуру y как признак \\ & и объединить его с исходным вектором признаков \vec{x} для формирования структурированного вектор признаков. \\ & \\ & Чтобы функция оценки следовала линейной зависимости, функция оценки может быть определена следующим образом: \\ & \boxed{ f(\vec{x}, y) = \vec{w} \cdot \ vec{\phi} (\vec{x}, y), где \vec{\phi} — вектор набора функций признаков \phi_i} \\ & Итак, при прогнозировании: \\ & \boxed{ \hat {y} = argmax_{y \in Y} [(\vec{w} \cdot \vec{\phi}(\vec{x}, y)] } \end{aligned} я Oни Знать Дорога , Чувствовать Знать машина да один своего рода Нить секс плесень тип , Тот Какие , хотеть позволять Нить секс плесень тип филиал держать Морской узел структура изменять учиться привычка , голова Первый придется Первый Конечно Конечно ударил Минута письмо номер из форма Режим . от начальство заявил Может от Знать Дорога , ударил Минута письмо номер f ( x , y ) необходимость хотеть два Кусок женьшень номер : терять входить из специальный подписать В направлении количество x и терять вне из Морской узел структура y . но да , Из вперед из Чувствовать Знать машина из ударил Минута письмо номер Только необходимость хотеть один Кусок женьшень номер x : w ⋅ x + b , Тот Какие , Морской узел структура y как Какие Контрольная работа учитывать Входить идти с Шерстяная ткань ? отвечать кейс да Конечно праведный новый из специальный подписать письмо номер : ϕ ( x , y ) , Пучок Морской узел структура y также когда Делать один своего рода специальный подписать , и Оригинал Приходить из специальный подписать В направлении количество x один рост Группа комбинировать стать Морской узел структура изменять специальный подписать В направлении количество . за охватывать сделать ударил Минута письмо номер Одежда от Нить секс Закрыть Галстук , Может от как Вниз Конечно праведный ударил Минута письмо номер : f ( x , y ) = w ⋅ ϕ ( x , y ) , Тот середина , ϕ да один Группа специальный подписать письмо номер ϕ i Группа стать из В направлении количество В да , до Измерение Время имеют : y ^ = a r g m a x y е Y [ ( w ⋅ ϕ ( x , y ) ]
5.2.2 Обучение структурированного персептрона
5.2.2.1 Стратегия обучения структурированного перцептрона
Целью обучения структурированного персептрона является нахождение оценочной функции f ( x , y ) , эта оценочная функция может быть заданный вектор признаков x i ⃗ из множества структур при условии Y выбрать один из x i ⃗ лучший матч y i . Так как же функция подсчета очков находит наилучшее совпадение? y Шерстяная ткань? Простой и грубый способ - структурировать Исчерпывающее все в комплекте y , положи это y с данным x ⃗ вместе в пару ( x ⃗ , y ) , то пусть оценка Функция оценивает каждую пару таких комбинаций, а затем выбирает наивысшую оценку в качестве выходных данных. Однако, к счастью, на этапе обучения для тренировочного набора ( X , Y ) любой из x i е X , с этим лучший матч y Фактически установлено, что y i . Итак, во время обучения мы можем сделать функцию подсчета очков в точке выборки ( x i ⃗ , y i ) высший балл в остальном исчерпывающая комбинация ( x i ⃗ , y j ) ( i ≠ j ) чтобы дать более низкую оценку, это гарантирует, что функция подсчета очков может предсказать вывод правильный y i . Если вы хотите использовать математический язык, чтобы выразить приведенный выше текст, есть следующее утверждение: известная скоринговая функция f ( x ⃗ , y ) = w ⃗ ⋅ ϕ ⃗ ( x ⃗ , y ) , заданная точка выборки ( x i ⃗ , y i ) и остальные исчерпывающие комбинации ( x i ⃗ , y j ) ( i ≠ j ) , найти разрешающее неравенство w ⃗ ^ ⋅ ϕ ⃗ ( x i ⃗ , y i ) ≥ w ⃗ ^ ⋅ ϕ ⃗ ( x i ⃗ , y j ) учредил w ⃗ ^ . Теперь обе части неравенства представлены в виде скалярного произведения двух векторов, а затем по числу скалярного произведения векторов В чем смысл?Выражение в левой части неравенства можно рассматривать как точку отсчета ( x i ⃗ , y i ) Собственные векторы, представленные в векторе w ⃗ ^ Длина проекции на , аналогично, выражение в правой части неравенства есть исчерпывающая комбинация остальных ( x i ⃗ , y j ) представлять Собственные векторы w ⃗ ^ Длина проекции на . Итак, как сделать длину проекции слева больше, чем проекцию справа при итеративном обучении? Ответ - вектор вращения w ⃗ ^ , приближая его к собственным векторам ϕ ⃗ ( x i ⃗ , y i ) , держась подальше от ϕ ⃗ ( x i ⃗ , y j ) : w ⃗ ← w ⃗ + ϕ ^ ( x i ⃗ , y i ) − ϕ ^ ( x ⃗ , y j ) ( i ≠ j ) \begin{aligned} & Цель обучения структурированного персептрона состоит в том, чтобы найти оценочную функцию f(x, y), которую можно выбрать из набора структур Y при условии \\ & при заданном векторе признаков \vec{x_i } y_i, который лучше всего соответствует \vec{x_i}. \\ & Так как же функция подсчета очков находит наилучшее соответствие y? Простой и грубый способ состоит в том, чтобы полностью перебрать все y в структуре \\ & set, объединить это y с заданным \vec{x} в пару (\vec{x}, y), а затем присвоить счету \ The Функция \& оценивает каждую такую комбинацию и выбирает наивысшую оценку в качестве вывода. \\ & \\ & К счастью, на этапе обучения для любого x_i \in X в тренировочном наборе (X, Y) действительно был определен y, который лучше всего соответствует его \\ &, тогда это y_i. \\ & Итак, во время обучения мы можем позволить функции подсчета очков получить наивысший балл по точкам выборки (\vec{x_i}, y_i), а при исчерпывающей комбинации оставшихся \\ & (\vec{x_i}, y_j) (Меньшая оценка i \neq j) гарантирует, что функция оценки \\ & выводит правильный y_i при прогнозировании. \\ & \\ & Если вы хотите выразить вышеприведенный текст математическим языком, есть следующее утверждение: \\ & Известная функция подсчета очков f(\vec{x}, y) = \vec{w} \cdot \ vec {\phi}(\vec{x}, y), \\ & заданные точки выборки (\vec{x_i}, y_i) и остальные исчерпывающие комбинации (\vec{x_i}, y_j)(i \neq j ), \\ & найдите неравенства, которые \\ & \boxed{ \hat{\vec{w}} \cdot \vec{\phi}(\vec{x_i}, y_i)\ge \hat{\vec{ w}} \cdot \vec{\phi}(\vec{x_i}, y_j) } \\ & содержит \hat{\vec{w}}. \\ & Теперь обе части неравенства представлены в виде операции скалярного произведения двух векторов, и тогда по смыслу скалярного произведения векторов выражение в левой части неравенства можно рассматривать как образец точка (\vec{x_i}, длина проекции вектора признаков, представленного y_i) на вектор \\ & \hat{\vec{w}}, аналогично, выражение в правой части неравенства является оставшимся исчерпывающим комбинация (\ vec {x_i}, y_j) представляет \ Прогнозируемую длину собственных векторов \ & на \ hat {\ vec {w}}. \ & Итак, как сделать длину проекции слева больше, чем проекцию справа при итеративном обучении? \\ & Ответ состоит в том, чтобы повернуть вектор \hat{\vec{w}} так, чтобы он был ближе к собственным векторам \vec{\phi}(\vec{x_i}, y_i) и дальше от \vec{\phi }(\vec {x_i}, y_j): \\ & \boxed{ \vec{w} \gets \vec{w} + \hat{\phi}(\vec{x_i}, y_i) - \hat{\ phi}(\ vec{x}, y_j)(i \neq j) } \end{выровнено} Морской узел структура изменять Чувствовать Знать машина из обучение упражняться цель отметка Сразу да Находить прибыть ударил Минута письмо номер f ( x , y ) , Этот Кусок ударил Минута письмо номер может достаточно существует давать Конечно специальный подписать В направлении количество x i из полоска кусок Вниз от Морской узел структура набор комбинировать Y середина Выбрать Выбирать один Кусок и x i самый совпадение совпадение из y i . Тот Какие ударил Минута письмо номер Как Образец талант может Находить прибыть самый совпадение совпадение из y Шерстяная ткань ? один своего рода просто один Нефть жестокий из управлять Закон Сразу да существует Морской узел структура набор комбинировать середина бедность поднимать Место имеют из y , будет Этот Кусок y и давать Конечно из x один рост Группа комбинировать стать один правильно ( x , y ) , поймать написать позволять ударил Минута письмо номер давать Каждый один правильно Этот Образец из Группа комбинировать ударил Минута , Конечно Задний от середина Выбрать Выбирать самый высокий Минута делать за терять вне . Конечно и повезло транспорт из да , существует обучение упражняться приказ часть , правильно В обучение упражняться набор ( X , Y ) середина из назначать значение один Кусок x i е X , и Это самый совпадение совпадение из y Тот реальность да уже через Конечно Конечно хорошо охватывать из , Тот Сразу да y i . Место от , существует обучение упражняться Время , я Oни Может от позволять ударил Минута письмо номер существует Образец Книга точка ( x i , y i ) начальство ударил самый высокий Минута , существует Тот Оставаться из бедность поднимать Группа комбинировать ( x i , y j ) ( i = j ) начальство ударил Сравнивать Низкий Минута , Этот Образец Сразу Может от Конечно Сохранять ударил Минута письмо номер существует до Измерение Время может терять вне просто Конечно из y i . как фрукты хотеть сделать использовать номер учиться язык Слово Приходить поверхность вплоть до начальство лапша Этот часть Искусство Характер из говорить , имеют от Вниз Сирия заявил : уже Знать ударил Минута письмо номер f ( x , y ) = w ⋅ ϕ ( x , y ) , давать Конечно Образец Книга точка ( x i , y i ) от и Тот Оставаться из бедность поднимать Группа комбинировать ( x i , y j ) ( i = j ) , попрошайничество вне может сделать Нет Ждать Режим w ^ ⋅ ϕ ( x i , y i ) ≥ w ^ ⋅ ϕ ( x i , y j ) стать стоять из w ^ . в настоящее время существует , Нет Ждать Режим два боковая сторона Все да два Кусок В направлении количество Делать Внутри продукт транспорт Рассчитать из форма Режим , Конечно Задний корень в соответствии с В направлении количество Внутри продукт из Несколько Какие значение праведный , Нет Ждать Режим Левый боковая сторона из Режим сын Может от Смотреть делать да Образец Книга точка ( x i , y i ) поколение поверхность из специальный подписать В направлении количество существует В направлении количество w ^ начальство из В ролях фильм длинная Тратить , такой же Образец земля , Нет Ждать Режим правильно боковая сторона из Режим сын но да Тот Оставаться бедность поднимать Группа комбинировать ( x i , y j ) поколение поверхность из специальный подписать В направлении количество существует w ^ начальство из В ролях фильм длинная Тратить . Тот Какие , существует повторять поколение обучение упражняться Время , как Какие позволять Левый боковая сторона из В ролях фильм длинная Тратить Большой В правильно боковая сторона из Шерстяная ткань ? отвечать кейс да вращение изменять В направлении количество w ^ , позволять Это Четное Зависит от Закрыть специальный подписать В направлении количество ϕ ( x i , y i ) , такой же Время Далеко Уехать ϕ ( x i , y j ) : w ← w + ϕ ^ ( x i , y i ) − ϕ ^ ( x , y j ) ( i = j )
5.2.2.2 Алгоритм обучения структурированного персептрона
Вход: тренировочный набор ( X , Y ) = { ( x 1 ⃗ , y 1 ) , ( x 2 ⃗ , y 2 ) , … , ( x n ⃗ , y n ) } вывод: веса w ⃗ ( 1 ) случайная инициализация w ⃗ = w 0 (Его также можно установить непосредственно как 0 ); ( 2 ) Выбор точки выборки случайным образом ( x i ⃗ , y i ) ; ( 3 ) коллекция в структуре Y найти в x i ⃗ лучший матч y i ^ ; ( 4 ) если y i ^ ≠ y i : Параметры обновления: w ⃗ ← w ⃗ + ϕ ^ ( x i ⃗ , y i ) − ϕ ^ ( x ⃗ , y j ) ( y i е Y , y j е Y , i ≠ j ) ( 5 ) перенаправить на ( 2 ) , пока параметр w ⃗ пока больше не будет обновлений. \begin{выровнено} и ввод: обучающий набор (X, Y) = \{(\vec{x_1}, y_1), (\vec{x_2}, y_2), \dots, (\vec{x_n}, y_n) \} \\ & Вывод: Вес \vec{w} \\ & (1) Случайная инициализация \vec{w}=w_0 (также можно установить в 0 напрямую); \\ & (2) Случайный выбор точки выборки ( \ vec{x_i}, y_i); \\ & (3) найти \hat{y_i}, которая лучше всего соответствует \vec{x_i} в наборе структур Y; \\ & (4) если \hat{y_i} \ neq y_i : \\ & \ \ \ \ \ Параметры обновления: \vec{w} \gets \vec{w} + \hat{\phi}(\vec{x_i}, y_i) - \hat{\phi}( \vec {x}, y_j)(y_i \in Y, y_j \in Y, i \neq j) \\ & (5) Переход к (2) до тех пор, пока параметр \vec{w} больше не будет обновляться. \end{выровнено} терять входить : обучение упражняться набор ( X , Y ) = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) } терять вне : правильно Тяжелый w ( 1 ) следить машина рано начало изменять w = w 0 ( также Может от прямой поймать Предполагать набор за 0 ) ; ( 2 ) следить машина Выбрать Выбирать один Кусок Образец Книга точка ( x i , y i ) ; ( 3 ) существует Морской узел структура набор комбинировать Y середина Searching Находить и x i самый совпадение совпадение из y i ^ ; ( 4 ) как фрукты y i ^ = y i : Четное новый женьшень номер : w ← w + ϕ ^ ( x i , y i ) − ϕ ^ ( x , y j ) ( y i е Y , y j е Y , i = j ) ( 5 ) Прыжок изменять прибыть ( 2 ) , прямой прибыть женьшень номер w Нет Снова Четное новый за конец .
6. Ссылки
[1].«Введение в обработку естественного языка» Хе Хана
[2].«Статистические методы обучения» (второе издание), Ли Ханг
[3]. Introduction of Structured Learning, Hung-yi Lee
[4]. Structured Linear Model, Hung-yi Lee
[5]. Understanding the Averaged Perceptron Machine Learning Technique
[6]. Как понять двойную форму алгоритма обучения персептрона?