[Средний анализ] Объясните простыми словами функцию ядра машины опорных векторов (SVM).

0x00 сводка

В случае использования менее математических формул эта статья пытается объяснить концепцию функции ядра в машинах опорных векторов, полагаясь только на перцептивное и интуитивное мышление, и дает вам вымышленный пример Water Margin для дальнейшего популярного объяснения.

0x01 проблема

При изучении функций ядра у меня всегда возникало несколько любопытных вопросов.

Почему важна линейная разделимость?
Почему данные низкой размерности могут быть линейно разделимы после обновления данных низкой размерности до данных высокой размерности?
Что такое функция ядра и какова ее роль?
Как я могу найти функцию ядра?

Я не знаю, есть ли у вас такие же вопросы, как и у меня.В дальнейшем я объясню вам эти вопросы в пошаговом обучении.

0x02 Связанные понятия и процесс кардинга

1. Значение линейной классификации

Классификатор:Классификатор — это алгоритм, который по данным выборки определяет, к какой категории относится выборка.

особенность:В задачах классификации данные, подаваемые в классификатор, называются признаками.

Линейный классификатор:Линейный классификатор является одним из классификаторов, то есть основой для суждения о результатах классификации являетсяособенностьОн получается линейной комбинацией и не может быть определен нелинейным результатом работы функции. Например:

Точка может разделить одномерную линию на две части.
Прямая линия может разделить двумерную плоскость на две части.
Плоскость может делить трехмерное пространство на две части.

Нелинейный классификатор:Это использование результатов нелинейных операций в качестве основы для суждения. Например, в двумерном пространстве окружность можно сегментировать нелинейно, разделив пространство на две части: внутреннюю часть и внешнюю часть.

Зачем нужно линейное разделение?так как:

Линейное разделение простое, и его свойства легко тщательно изучить; для линейного разделения требуется только прямая линия или плоскость, что является простейшей формой кривых. И слишком много случаев нелинейного разделения. Что касается двумерного пространства, то существуют кривые, полилинии, гиперболы, конические кривые, волнистые линии и различные другие кривые без регулярности, с которыми нельзя обращаться единообразно.
Способность продвижения линейного разделения сильна, и нет необходимости устанавливать другие модели. Нелинейная классификация часто изучает конкретные модели кривых для конкретных задач, которые нельзя хорошо продвигать.

Это отвечает на наш первый вопрос:1. Почему важна линейная разделимость

2. Теорема обложки

Помните о наших проблемах2. Почему: почему низкоразмерные данные могут быть линейно разделимыми после обновления низкоразмерных данных до многомерных данных?

После увеличения размерности исходно нелинейные точки данных становятся линейно разделимыми, что строго математически доказано, то есть теорема обложки. Здесь мы используем теорему Кавера как аксиому.

Теорема Кавера может быть качественно описана следующим образом: нелинейное проецирование сложной задачи классификации образов на многомерное пространство с большей вероятностью будет линейно разделимым, чем на низкоразмерное пространство. .

Или, другими словами, эта теорема описывает вероятность линейной разделимости.Если данные могут быть отображены из низкоразмерного пространства в многомерное пространство, мы, вероятно, сделаем данные линейно разделимыми в многомерном пространстве. Для данных, которые линейно неразделимы в N-мерном пространстве, пространство выше N+1 измерений, скорее всего, станет линейно разделимым.

Поэтому люди пытаются найти отображение, которое может преобразовать выборки из исходного пространства (низкоразмерные данные) в многомерное пространство признаков, чтобы два типа точек, которые линейно неразделимы в низкоразмерном пространстве, стали линейно разделимыми. . это сопоставлениеф(X) также можно назвать «построением признаков», а отображаемый вектор можно назвать «вектором признаков». Например

вектор

X = [1, x1, x2]

Построить карту

ϕ(X) = ϕ( [1, x1, x2] ) = [1, x1, x2, x1^2， x2^2， x1.x2]

Таким образом, теорема Кавера отвечает на наш второй вопрос, и мы используем ее как аксиому, не изучая подробно ее математическую аргументацию.

3. Геометрический смысл скалярного произведения векторов

Геометрический смысл внутреннего продукта (скалярного продукта) включает в себя:

Охарактеризовать или вычислить угол между двумя векторами
Проекция вектора b на направление вектора

Следовательно, скалярный продукт является средством измерения сходства его данных в некотором пространстве измерений, то есть отношений между двумя векторами в этом пространстве. Например, расстояние и угол между двумя точками данных.

Классификация требует внутреннего продукта, потому чтоПоложительное и отрицательное значения внутреннего продукта представляют, расположена ли точка данных в положительном или отрицательном направлении границы классификации, тем самым достигается классификация.

В многомерных пространствах мы можем использовать векторный скалярный продукт для линейной классификации.

4. Вычислительная сложность многомерного пространства

Отображение можно рассматривать как своего рода растяжение, растягивание низкоразмерных данных до многомерных. Хотя мы теперь достигли многомерного пространства, называемого линейно сепарабельным, есть несколько трудностей:

Не уверен, какая функция отображения идеальна.
Сложно найти подходящую среди различных картографических функций.
Многомерные пространства требуют большого количества вычислений. Это создает проклятие размерности, и вычисление внутреннего продукта нереально.

К счастью, в ходе вычислений мы обнаружили, что все, что нам нужно, — это результат скалярного произведения двух векторов в новом пространстве отображения, и нам не нужно знать, что такое функция отображения. Таким образом, мы вводим понятие **функции ядра**.

Функция ядра вычисляется заранее в малых размерностях, а существенный эффект классификации выражается в больших размерностях, т. е.

Содержит логику отображения, внутреннего продукта, подобия.
Устраните процесс преобразования низкоразмерных векторов в многомерные векторы.
Избегаются сложные вычисления непосредственно в многомерных пространствах.

То есть функция ядра может не только завершить сопоставление признаков, но и напрямую вернуть результат внутреннего продукта после сопоставления признаков. То есть операция внутреннего продукта многомерного пространства преобразуется в вычисление функции ядра низкоразмерного пространства.

Обратите внимание, что функция ядра просто переводит полностью неразделимую проблему в состояние, которое является отделимым или приблизительно разделяемым.

5. Определение функции ядра

О нашем третьем вопросеЧто такое функция ядра и какова ее роль?, а теперь ответ такой.

Функция ядра — это такая функция:

Все еще взяв в качестве примера двумерное пространство, предполагая, что для переменных x и y функция отображения, которая отображает их в новое пространство, есть φ, тогда в новом пространстве они соответствуют φ(x) и φ( y) соответственно, а их внутреннее произведение равно .

Мы позволяем функцииKernel(x,y)=<φ(x),φ(y)>=k(x,y),

Видно, что функцияKernel(x,y)является функцией x и y! И не имеет ничего общего с фи! Какая же это добрая природа! Нам больше не нужно заботиться о конкретных отношениях отображения φ, нам нужно только вычислить окончательныйKernel(x,y)Тогда мы сможем получить их внутренний продукт в многомерном пространстве.

Назовем К(х, у) функцией ядра, а ф(х) — функцией отображения.

Вот три хороших примера из интернета:

Пусть х = (х1, х2, х3, х4), у = (у1, у2, у3, у4); Пусть f(x) = (x1.x1, x1.x2, x1.x3, x1.x4, x2.x1, x2.x2, x2.x3, x2.x4, x3.x1, x3.x2, x3.x3 , х3.х4, х4.х1, х4.х2, х4.х3, х4.х4), f(y) также; Это обеспечивает преобразование из четырех измерений в более высокие измерения.

Давайте возьмем несколько простых чисел и посмотрим, каков эффект:

х = (1, 2, 3, 4), у = (5, 6, 7, 8), тогда: f(x) = (1, 2, 3, 4, 2, 4, 6, 8, 3, 6, 9, 12, 4, 8, 12, 16) ; f(y) = (25, 30, 35, 40, 30, 36, 42, 48, 35, 42, 49, 56, 40, 48, 56, 64); = 25+60+105+160+60+144+252+384+105+252+441+672+160+384+672+1024 = 4900.

Что, если мы воспользуемся функцией ядра? K(x, y) = (x1.y1 + x2.y2 + x3.y3 + x4.y4) ^2= (5+12+21+32)^2 = 70^2 = 4900. Таким образом, функция ядра на самом деле является «простым алгоритмом», избавляющим нас от утомительных вычислений в многомерном пространстве.

другой пример

«Вы можете испытать много изменений в своей жизни и стать совершенно другим человеком, но в этом мире есть только один вы, как я могу отделить разные «вы»? Самый интуитивный способ — добавить измерение «время» ... Хотя на этой земле есть только один вы, этот вы неразделимы, но «вы в Китае вчера» и «вы в Соединенных Штатах сегодня» могут быть разделены в измерении времени + пространства».

последний пример

Предположим, наша задача состоит в том, чтобы предсказать, какие микроблоги могут быть в списке трендов микроблогов. Есть две отдельные функции: одна представляет «Лу Хань» в определенном Weibo, а другая представляет «Гуань Сяотун» в определенном Weibo.

Эти две функции являются средними только с точки зрения тепла.В настоящее время мы используем метод полиномиального ядра второго порядка:
$K(Лухан, Гуань Сяотун) = ^2$
Эта функция ядра может проецировать двумерное пространство в трехмерное пространство, и после расширения:
$K(Лухан, Гуань Сяотун) = ^2 = (Лухан^2, \sqrt{2} Лухань. Гуань Сяотун, Гуань Сяотун^2)$
Таким образом, двухмерная функция становится трехмерной, и появляется еще одно измерение «Лухан х Гуань Сяотун», что означает, что Лухан и Гуань Сяотун одновременно появляются в определенном Weibo.

В результате все знают, что Weibo, в котором одновременно появились Лухан и Гуань Сяотун, был суперпопулярен, переполнив сервер Sina.

Мы можем грубо получить следующие свойства функции ядра:

Функция ядра дает меру взаимосвязи между любыми двумя образцами, например сходство.
Каждая функция, которую можно назвать функцией ядра, имеет скрытую в ней соответствующую функцию растяжения. Имена этих функций ядра обычно также связаны с тем, как выполняется преобразование растяжения.
Функция ядра не имеет прямого отношения к самому отображению. Какую функцию ядра выбрать, на самом деле выбирает, какой метод использовать для отображения. С функцией ядра мы можем пропустить процесс сопоставления.
Нам нужна только функция ядра, а не карта, и мы не можем написать эту карту явно.
Выбор функции ядра состоит в том, чтобы тянуть и месить исходный набор данных вверх, вниз, влево, вправо, назад и вперед, пока вы просто не отрежете все 0 с одной стороны и все 1 с другой стороны. Этот процесс вытягивания и разминания вверх, вниз, влево, вправо, вперед и назад является ядром.

6. Теорема Мерсера

Функция ядра делает вычисление функции ядра пары векторов эквивалентным вычислению скалярного произведения пары векторов в преобразованном пространстве.

Но затем приходит наш четвертый вопросКак я могу найти функцию ядра?,

Это то, что может сделать теорема Мерсера. Теорема Мерсера также является строго доказанной математической теоремой, и мы также используем ее как аксиому.

Общее содержание теоремы Мерсера таково: любая положительно полуопределенная симметрическая функция может быть использована в качестве функции ядра.

Положительная определенность делает предельное направление функции уникальным и большим или равным 0. В то же время все задачи оптимизации, порожденные положительной определенностью, обладают хорошими свойствами выпуклой оптимизации, так что метрическое понятие исходного пространства может быть перенесено в пространство признаков (интегрированное в угол и внутренний продукт).

Математики узнают функцию ядра с помощью различных экспериментов под руководством теории, а затем смотрят на конкретный эффект.Если эффект хороший, функция ядра будет официально выпущена для подтверждения. Что-то вроде вывода из эффекта.

0x03 Как герои Ляншаня видят функцию ядра

Лучший способ заставить людей понять концепцию — использовать метафоры/примеры. Приведем пример функции ядра из истории Water Margin.

Говорят, что Сун Цзяну использовал две волшебные палочки, чтобы использовать каменную табличку, чтобы обмануть всех героев в Ляншане, и составил рейтинг героев следующим образом:

Семьдесят первая глава: Каменная колонна Зала Чжунъи получает астрономию, а герои парка Ляншань сидят

Сун Цзян сначала сказал, что проведет конференцию как шоу.

Сегодня перед ними собрались сто восемь человек, что редкость в прошлом и настоящем. В прошлом мечи были повсюду, убивая живых существ безо всякой благодарности. Я хочу построить грандиозную церемонию в своем сердце, чтобы отплатить за милость богов неба и земли

Здесь начинается трюк

Была третья стража ночи, и только звук был слышен в небе, как треснувший шелк, это была дверь рая на северо-западе. Когда все смотрели на него, золотая пластина стояла прямо: два конца были заострены, а середина широка, и называлась она также отверстием небесных врат, а также называлась отверстием небесного ока. внутри стреляли глаза людей, и медлили розовые лучи. , катитесь прямо вниз по алтарю виртуального императора. Огонь некоторое время кружился вокруг алтаря, а затем попал в землю прямо на юге. В это время глаза неба были закрыты, и даосские жрецы спустились с алтаря.Сун Цзян немедленно приказал людям вскопать землю лопатой и мотыгой, чтобы найти огненные блоки. Глубина раскопок была менее трех футов, и там был только каменный пилон, с обеих сторон которого были написаны священные писания с небес. В доказательство тому стихи: Верные и праведные богатыри едины, и удивительно понять Бога!Все добро и зло в мире сообщается, когда не откроются глаза неба!

Выньте заранее подготовленную каменную таблетку

На данный момент Сун Цзян и учебный лист разбросаны. В Пинмине все даосские священники в Чжае давали в дар золото и шелк, чтобы пополнить свои ресурсы. Когда я просто взял каменную табличку и посмотрел на нее, это была книга дракона, главы и печати феникса, головастика, и никто этого не знал. Среди даосских священников был человек по имени Хэ, Фа Яо Сюаньтун, который сказал Сун Цзяну: «Предки маленьких даосов оставили книгу документов, по которой можно идентифицировать небесный шрифт, написанный в головастиков с древних времен. Когда выйдет перевод, вы узнаете правду». Сун Цзян был вне себя от радости, когда услышал это, он быстро взял камень цзе, научил даосского священника Хэ смотреть на него и долго говорил : «Этот камень весь выгравирован с именем праведника: сбоку головы четыре «идущего дорогой в небо». С одной стороны четыре знака «Верность и праведность»; звезды и две битвы на севере и юге; ниже почетный титул. Если вы не видите вины, вы должны объявить ее с самого начала». Сун Цзян сказал: «К счастью, Гао Ши указал фанатам, но судьба не та. Цянь, если тебя научат, ты почувствуешь великую добродетель. Если ты боишься, что боги увидят слова ответственности, пожалуйста, не прячь их, и Ванван выставит их напоказ в свое удовольствие , и оставьте несколько слов." Сун Цзян позвонил Сяо Рану, ученому святой руки, и написал это на желтой бумаге. Хэ Даоши сказал: «Впереди тридцать шесть строк Небесной Книги, все из которых являются звездами Тяньган; есть также семьдесят две строки Небесной Книги, все из которых являются земными злыми звездами, и имена о праведниках написано ниже." После долгого просмотра он научил Сяо Рана от начала до конца. Копировать все.

Итак, Сун Цзян использовал обличие Бога для распределения прав

Сун Цзян и лидеры сказали: «Неряшливые маленькие чиновники, оказывается, Синкуй и многие братья были членами собрания. Небеса показывают ответ, и это должно быть собрание справедливости. и число божьего расположения основано на размере.Второй класс.Небесные банды и злые звезды земли все устроены по порядку,и все вожди сохранят свои позиции и перестанут спорить.Слова небес необратимы. Все говорили: «Смысл неба и земли определяется физическими числами, кто осмелится нарушить его?»

Среди героев есть понимающие, которые притворяются, что верят в это, и запутавшиеся, которые верят, что это правда. Но те, кто, например, разочаровался в нем, не могут разобраться без лица, поэтому они идут к Ли Чжуну, генералу тигров, чтобы спросить, что происходит.

Цзяо Тин: «Брат Ли Чжун, я ничего не знаю о своем младшем брате. Ты знаешь, какой я хороший, я могу драться с двумя в одиночку, как Ли Куй. Но почему он такой?天杀星黑旋风李逵 ? я地恶星没面目焦挺, на основании чего рассчитывается это место?».

Ли Чжун тайно сказал в своем сердце, что ты палка, и ты должен улыбаться на поверхности:

«Брат. Этот брат Гунмин использует картографирование объектов. Он предназначен для отображения информации обо всех в небе, и пусть Бог устроит определенные места. Вы — трехмерное пространство под землей, но небо — N-мерное пространство. на земле Ваша низкоразмерная информация: имя, место происхождения, мастерство, происхождение и т. д. Сопоставлены с Богом, т.е.Высокоразмерная информация, такая как: особый порядок расположения созвездий, форма созвездий, положение эклиптики и положение лунной звезды, а также четыре знака, восемь триграмм, шесть рен и т. д.«В конце концов, всестороннее рассмотрение подошло к вашему рейтингу.

Цзяо Тин уставился: «Как я могу вычислить столько многомерной информации? Могу ли я говорить человеческими словами, иначе я узнаю своего брата, а палка в моей руке не узнает моего брата».

Ли Чжун смеялся вместе с ним:

«Брат, эта проблема отображения и многомерных вычислений слишком хлопотна. Мы можем использовать функцию ядра для прямого вычисления результата в трехмерном пространстве, поэтому нет необходимости в отображении и многомерном вычислении. Эта функция ядра учитывает :

Первая основа: ранг в соответствии с репутацией, такой как уровень статуса родословной/уровень статуса до присоединения к Ляншаню. Второе основание: сила прямой линии брата Гунмина, в зависимости от степени личной симпатии брата Гунмина и степени близости с братом Гунмином. Третье основание: уровень боевых искусств.

Вы понимаете теперь?"

Цзяо Тин вдруг понял: «Брат Ли Чжун, ты старик, подойди, выпьем…»

0xEE Личная информация

★★★★★★Думая о жизни и технологиях★★★★★★

Публичный аккаунт WeChat:мысли Росси

Если вы хотите получать своевременные новости о статьях, написанных отдельными лицами, или хотите видеть технические материалы, рекомендованные отдельными лицами, обратите внимание.

ссылка 0xFF

Функция ядра K (функция ядра)

Машинное обучение — принцип общеупотребительного SVM

В зале сидят эксперты: понимание функций ядра в машинном обучении

Машинное обучение может многое сказать о функциях ядра.Каково определение и роль функций ядра?

Личное понимание SVM --- легко понять

SVM от начального до прикладного

【Серия ML】«Нелинейная» двоичная классификация

Функция ядра машины опорных векторов (3)

SVM: ядро