Продюсер: Ю Эр Хат
Автор: Питер
Редактор: Питер
Эндрю Нг Машинное обучение-7-Машина опорных векторов SVM
На этой неделе в основном объясняются соответствующие точки знаний о машине опорных векторов SVM.
- жесткий интервал
- опорный вектор
- мягкий интервал
- двойная проблема
Цели оптимизации
В основном это объясняет, как медленно получить базовую машину опорных векторов из логистической регрессии. Гипотетическая форма логистической регрессии:
- Слева — гипотетическая функция
- правильно
Sigmoid
функция активации
сделать, если:
- как,надеятьсяоколо 1, чтобы правильно классифицировать выборку, то z должно удовлетворять
- как,надеятьсяоколо 0, чтобы правильно классифицировать выборку, то z должно удовлетворять
Правильная классификация выборки означает: допущение, что результат, полученный функцией h(x), согласуется с истинным значением y
Функция общих затрат обычно суммируется по всем обучающим выборкам, и каждая выборка добавляет последний член приведенного выше уравнения (и коэффициент к функции общих затрат)., коэффициенты не учитываются)
если, работает только первый член целевой функции, что приводит к выражению:
Опорные векторные машины
Формула машины опорных векторов, полученная из логистической регрессии:
дваcost
Функции — это две прямые линии, упомянутые выше. Для логистической регрессии в целевой функции есть два элемента:
- Во-первых, это стоимость обучающих выборок.
- Во-вторых, это срок регуляризации.
Интуитивная интерпретация больших границ
Ниже представлена модель функции стоимости машины опорных векторов.
Граница решения SVM
Надежность SVM: максимизация маржи, большой классификатор маржи.
Пояснение к картинке выше:
-
C
Если он слишком большой, это будет розовая линия. -
C
Если она не слишком велика, это будет черная линия.
Описание классификатора с большим интервалом лишь интуитивно дает случай, когда параметр регуляризации C очень велик, а роль C аналогична использовавшемуся ранее параметру регуляризации.
-
C
Большой, может привести к переоснащению, высокая дисперсия -
C
Меньше, может привести к низкой подгонке, большому смещению
модель с жестким интервалом
Интервалы и опорные векторы
Примечание. В этой статье используются векторы-столбцы:
Дан пример обучающего набора,в
Основная идея классификационного обученияТо есть: на основе тренировочного набораD
Найдите разделенную гиперплоскость в демонстрационном пространстве
Красная линия выше является лучшей. Полученные результаты классификации являются наиболее надежными, наиболее устойчивыми и обладают наилучшей способностью к обобщению.
Линейное описание гиперплоскости разбиения:
W называется вектором нормали (рассматривается как вектор-столбец), который определяет направление плоскости; b — это член смещения, который определяет расстояние между гиперплоскостью и началом координат.
Расстояние от любой точки x в пространстве до гиперплоскости (w,b):
существуетТочки площади удовлетворяют:
существуетТочки площади удовлетворяют:
Объединяя две приведенные выше формулы, мы имеем:
опорный вектор
Ближайшие к гиперплоскости точки (точки, обведенные кружком) называются支持向量support vector
, расстояние от этой точки до гиперплоскости называется间隔margin
Точка непосредственно на границе решения (обведенная точка на рисунке ниже) удовлетворяет знаку равенства в приведенной выше формуле:
отступ
Решить интервалmargin
вектор решенияПроекция на вектор нормали
Положительный пример на границе решения выражается как:
Отрицательный пример строки границы решения выражается как:
свести два результата вmargin
в выражении:
Базовая модель SVM
Максимальный интервал должен быть толькоСвернуть до:
SVM-двойная модель
Вывод параметров модели
Я хочу решить модель, соответствующую гиперплоскости базовой модели выше:
Использование множителей Лагранжа, преобразованный в функцию Лагранжа:
соответственноВывод, вы можете получить:
двойная модель
Исходная задача представляет собой максимальное преобразование в максимальную задачу:
в функцию Лагранжа, чтобы получить двойственную задачу (все окоэффициент):
Преобразуйте ее в задачу минимального значения (приведенная выше формула плюс отрицательный знак):
Тогда модель гиперплоскости:
Алгоритм SMO
Алгоритм SMO относится кSequential Minimal Optimization
, алгоритм оптимизации минимальной последовательности. Основная идея алгоритма такова:
всеудовлетворить:
-
Сначала выберите переменную, которую необходимо обновить.и
-
фиксированная переменнаяипараметры, отличные от , решить для обновленных переменныхи
вСделайте приведенную выше формулу справедливой:
- поместите переменнуюиОдин из них представлен другим, и мы получаем примерноОдномерная задача квадратичного программирования
Максимальное мягкое расстояние
Приведенные выше выводы и выводы относятся к линейно разделимым данным. Линейно неразделимые данные означают, что некоторые точки выборкиОграничение, заключающееся в том, что интервал функции больше или равен 1, больше не выполняется, например, точка в красном кружке на рисунке ниже, поэтому вводится резервная переменная., удовлетворять:
следовательно,целевая функцияпо оригиналустал:
впараметр штрафа,C
Чем больше значение, тем больше ошибочная классификация,C
Чем меньше штраф за ошибочную классификацию.