Это 3-й день моего участия в августовском испытании обновлений, подробности о событии:Испытание августовского обновления
7.1 Исходная проблема
Есть примерно два случая линейной неразделимости: только ребра линейно неразделимы (слева) и большинство выборок линейно неразделимы (справа). Для левого случая используеммягкий интервалметод решения.
Давайте сначала рассмотрим шаги для поиска гиперплоскости классификации с использованием жестких полей:
- Предположим, что функция гиперплоскости:
- Учитывая ограничения:(Указывает, что гиперплоскость может правильно классифицировать все образцы)
- зумиПусть опорный векторудовлетворить.
- Вычислить сумму расстояний от неоднородных опорных векторов до гиперплоскостиТо есть жесткий интервал, нахождение гиперплоскости, которая делает ее наименьшей (чтобы гарантировать, что найденная гиперплоскость уникальна), является конечной требуемой гиперплоскостью классификации.
На шаге 2 мы обнаружили, что гиперплоскость, удовлетворяющая ограничениям, не существует. В этом случае лучше согласиться на следующий лучший выбор. Также хорошим выбором является поиск гиперплоскости, которая может правильно классифицировать большинство выборок. В конце концов, поиск идеальной гиперплоскости — это не обязательно проблема алгоритма, но также может быть проблемой шума самих данных.
Таким образом, мы ослабляем ограничение на,называетсярезервная переменная. После добавления переменной slack наш интервал выглядит следующим образом:
Промежуток между двумя пунктирными линиями называетсямягкий интервал. Опорные векторы в это время являются векторами на границе интервала и внутри нее. каждый образецимеет соответствующую переменную резерва, который представляет допуск гиперплоскости для неправильной классификации выборки. Например, для точки выборки, соответствующая категория, результат классификации гиперплоскости, явно неправильно классифицирован. но еслиТак, мы можем принять эту гиперплоскость в качестве гиперплоскости классификации, даже если она неправильно классифицирует точку выборки.
Но наша терпимость ограничена, и мы должныРазмер ограничен, иначе точность классификации будет слишком низкой. Хотя добиться 100% точности классификации невозможно, мы все же надеемся сделать классификацию гиперплоскости максимально точной, то есть дать гиперплоскости как можно меньше допусков:
Сочетание этого с проблемой с жесткими интервалами дает основную проблему с мягкими интервалами:
УведомлениеиСвязь в том, что одно увеличивается, а другое уменьшается, и взять минимум одновременно нельзя, поэтому здесь нужно контролировать пропорцию двух, которая является гиперпараметромэффект. когдаКогда значение большеСделать его меньшеВажно быть меньше, а это значит, что у нас более низкая терпимость к ошибкам классификации, и нам нужно уменьшить мягкий интервал (уменьшить способность к обобщению), чтобы повысить точность классификации. Наоборот, это означает, что мы имеем высокую устойчивость к ошибкам классификации и жертвуем точностью классификации, чтобы увеличить мягкую маржу.
7.2 Двойственная проблема
Можно видеть, что задача по-прежнему удовлетворяет сильной теореме двойственности, которая очень похожа на задачу о жестких интервалах, за исключением того, что ограничения и параметры увеличены. Уведомление— это гиперпараметры, которые мы определяем перед обучением, а не переменные.ииЭто та же самая переменная, которую мы хотим минимизировать. Соответствующая функция:
Двойная проблема:
сделатьправильноЧастная производная равна 0:
заменятьЗаднийустранено, чтобы получить:
В сочетании с условием kkt мы получаем последнюю задачу, которую хотим решить:
Обратите внимание, потому чтоитак.
Зависит отВидно, что выбор гиперплоскости по-прежнему связан только с опорным вектором, а двойственная задача по-прежнему является задачей квадратичного программирования, и ее решение несложно.
использованная литература
«Машинное обучение», Чжоу Чжихуа, издательство Университета Цинхуа
«Подробное объяснение формул машинного обучения», авторы Се Вэньруй, Цинь Чжоу, издательство People's Posts and Tele Communications Publishing House
Курс машинного обучения преподавателя Ху Хаоджи из Чжэцзянского университета в МООК