Эта статья участвовала в "Проект «Звезда раскопок»”, чтобы выиграть творческий подарочный пакет и бросить вызов творческим поощрительным деньгам.
Мало знаний, большой вызов! Эта статья участвует в "Необходимые знания для программистов«Творческая деятельность.

I. Обзор

Машина опорных векторов (SVM, также известная как сеть опорных векторов) — это один из алгоритмов, получивших наибольшее внимание в машинном обучении. Он основан на статистической теории обучения и является первым сильным учеником, с которым мы связались, помимо ансамблевых алгоритмов. С точки зрения практического применения SVM очень хорошо работает в различных практических задачах. Он широко используется при распознавании рукописного ввода цифр и распознавании лиц и играет ключевую роль в классификации текста и гипертекста, поскольку SVM может значительно уменьшить потребность в маркировке обучающих экземпляров в стандартных индуктивных и трансдуктивных настройках. В то же время SVM также используется для выполнения классификации изображений и используется в системах сегментации изображений. Экспериментальные результаты показывают, что всего после трех-четырех раундов обратной связи по релевантности SVM может достичь точности поиска, которая намного выше, чем традиционные схемы уточнения запросов. Кроме того, SVM отдает предпочтение биологии и многим другим наукам, SVM теперь широко используется для классификации белков, а среднеотраслевой уровень классификации соединений теперь может достигать точности более 90%. В передовых исследованиях в области биологических наук машины опорных векторов также используются для определения различных характеристик для прогнозирования модели, чтобы найти факторы, влияющие на работу различных генов.

1.1 Классификатор SVM работает

Что делают SVM, на самом деле довольно легко понять. Давайте сначала посмотрим на распределение следующего набора данных, который представляет собой набор данных с двумя метками, которые представлены кружками и квадратами соответственно. Метод классификации машины опорных векторов заключается в том, чтобы найти гиперплоскость в этом наборе распределений в качестве границы решения, чтобы ошибка классификации модели на данных была как можно ближе к малой, особенно ошибка классификации на неизвестном набор данных (ошибка обобщения) как можно меньше.

Две гиперплоскости

В геометрии гиперплоскость — это подпространство пространства, которое на одно измерение меньше пространства, в котором оно находится. Если само пространство данных трехмерно, его гиперплоскость является двумерной плоскостью, а если само пространство данных двумерно, его гиперплоскость является одномерной линией.
В задаче бинарной классификации говорят, что гиперплоскость является «границей решения» данных, если она может разделить данные на два набора, каждый из которых содержит отдельный класс.

Все точки по одну сторону границы решения классифицируются как принадлежащие к одному классу, а все точки по другую сторону классифицируются как принадлежащие к другому классу. Если мы сможем найти границу решения, проблема классификации может стать исследованием относительного положения каждой выборки по отношению к границе решения. Например, в приведенном выше распределении данных мы можем легко провести линию между квадратом и кружком, и пусть все выборки, попадающие в левую часть линии, классифицируются как квадраты, а выборки в правой части линии классифицируются как круги. Если мы рассматриваем данные как наш обучающий набор, пока на одной стороне линии есть только один тип данных, ошибки классификации нет, и наша ошибка обучения будет равна 0.