应该对现有流行并将继续流行下去的分类模型有深刻的了解。随机森林和支持向量机(svm)
В последней статье кратко были представлены случайные леса, а в этой статье кратко представлены машины опорных векторов (svm).
Акцент на применении, свет на математическую интерпретацию и вывод.
Линейный классификатор
Очень простая задача классификации.
Разделите прямой линией точки двух цветов, как показано на рисунке (таких прямых линий может быть бесконечное количество). Если точка черного записывается как -1, точка белого равна +1. Строка f(x) = wx+b. Здесь x, w — векторы, которые также можно записать в таком виде. f(x) = w1x1 + w2x2 + ... + wnxn + b(w0x0), когда размерность вектора x равна 2, f(x) представляет прямую линию в двумерном пространстве, когда размерность x равно 3 Когда f(x) представляет собой плоскость в 3-мерном пространстве, когда размерность n x больше 3, она представляет n-1-мерную гиперплоскость в n-мерном пространстве. sign(f(x)) используется, когда есть новая точка, которую необходимо предсказать для классификации. sgn представляет знаковую функцию, когда f(x) > 0, она принадлежит черной точке, в противном случае — белой.
Но для бесконечного числа возможных прямых линий, какая из них работает лучше всего?
Картинка выше является описанием разрыва. Граница классификатора — fx, а красная и синяя линии — это место, где расположен опорный вертор. Разрыв между красной и синей линиями — это разрыв между классами, который необходимо максимизировать. Формула для M дается напрямую:
Линейно неразделимы
Поскольку линейно разделимых случаев слишком мало, следующий рисунок представляет собой типичный граф линейно неразделимой классификации.
- Полностью отделите его от графической кривой
- Другой — прямая линия, которая не требует гарантии разделимости и допускает ошибки.
Во втором случае, если используется штрафная функция, чем более разумна ошибочная классификация, тем лучше. Можно добавить небольшой штраф за неправильную точку, за неправильную точкуштрафная функцияэто расстояние от этой точки до ее правильного местоположения:
Функция ядра
Только что упоминалось, что для идеального разбиения можно использовать нелинейный метод. Пусть пространство изменится с исходного линейного пространства на многомерное пространство, и в этом многомерном линейном пространстве для сегментации используется гиперплоскость.
Выше простое понимание svm, автор многого не знает, просто сделайте запись, с нетерпением жду возможности залить яму позже.