应该对现有流行并将继续流行下去的分类模型有深刻的了解。随机森林和支持向量机(svm)
В последней статье кратко были представлены случайные леса, а в этой статье кратко представлены машины опорных векторов (svm).
Акцент на применении, свет на математическую интерпретацию и вывод.
Линейный классификатор
Очень простая задача классификации.
Разделите прямой линией точки двух цветов, как показано на рисунке (таких прямых линий может быть бесконечное количество). Если точка черного записывается как -1, точка белого равна +1. Строка f(x) = wx+b. Здесь x, w — векторы, которые также можно записать в таком виде. f(x) = w1x1 + w2x2 + ... + wnxn + b(w0x0), когда размерность вектора x равна 2, f(x) представляет прямую линию в двумерном пространстве, когда размерность x равно 3 Когда f(x) представляет собой плоскость в 3-мерном пространстве, когда размерность n x больше 3, она представляет n-1-мерную гиперплоскость в n-мерном пространстве. sign(f(x)) используется, когда есть новая точка, которую необходимо предсказать для классификации. sgn представляет знаковую функцию, когда f(x) > 0, она принадлежит черной точке, в противном случае — белой.
Но для бесконечного числа возможных прямых линий, какая из них работает лучше всего?
Интуитивно, пусть эта линия будет самой удаленной от ближайшей точки в данном образце, как показано в следующих двух методах, 2 работает хорошо.Интуитивно понятно, что чем больше разрыв в сегментации, тем лучше, и чем больше разнесены точки двух категорий, тем лучше. существуетВ SVM он становится максимальным маргиналом., является одной из теоретических основ svm. Есть много причин для выбора функции с наибольшим зазором. Например, с точки зрения вероятности достоверность точки с наименьшей достоверностью является наибольшей. Точки, нарисованные красными и синими кружками на рисунке выше, являются так называемыми опорными векторами.Картинка выше является описанием разрыва. Граница классификатора — fx, а красная и синяя линии — это место, где расположен опорный вертор. Разрыв между красной и синей линиями — это разрыв между классами, который необходимо максимизировать. Формула для M дается напрямую:Также опорные векторы лежат на прямых wx+b=1 и wx+b=-1. Умножая категорию (1 или -1), к которой принадлежит точка впереди, можно получить выражение опорного вектора y(wx+b) = 1 и просто выразить опорный вектор. Когда опорный вектор определен, функция сегментации также определяется, и эти две проблемы эквивалентны. Получение опорного вектора имеет еще один эффект, так что точки за опорным вектором не участвуют в расчете.Опустите кучу формул.
Алгоритмы в машинном обучении (2) - Основы метода опорных векторов (SVM)
Линейно неразделимы
Поскольку линейно разделимых случаев слишком мало, следующий рисунок представляет собой типичный граф линейно неразделимой классификации.
Получить классификатор в этом случае можно двумя способами.
- Полностью отделите его от графической кривой
- Другой — прямая линия, которая не требует гарантии разделимости и допускает ошибки.
Во втором случае, если используется штрафная функция, чем более разумна ошибочная классификация, тем лучше. Можно добавить небольшой штраф за неправильную точку, за неправильную точкуштрафная функцияэто расстояние от этой точки до ее правильного местоположения:
На приведенном выше рисунке синяя и красная линии — это границы опорного вектора, а зеленая линия — решающая функция. Фиолетовая линия представляет собой расстояние от неправильно классифицированной точки до соответствующей поверхности решения, так что к исходной функции (синяя часть) можно добавить штрафную функцию.Функция ядра
Только что упоминалось, что для идеального разбиения можно использовать нелинейный метод. Пусть пространство изменится с исходного линейного пространства на многомерное пространство, и в этом многомерном линейном пространстве для сегментации используется гиперплоскость.
Точки на приведенном выше рисунке могут быть отображены в трехмерное пространство (z1, z2, z3), а линейно отделимый набор может быть получен путем вращения отображаемых координат.Выше простое понимание svm, автор многого не знает, просто сделайте запись, с нетерпением жду возможности залить яму позже.