Проблема двух классов - одна из самых основных проблем в обучении с учителем.Эта статья направлена на то, чтобы разобраться во многих алгоритмах машинного обучения для решения проблемы двух классов с точки зрения значения оценки и функции потерь. Подробное введение в соответствующие алгоритмы можно найти в соответствующих учебниках.[1][2].
учитывая набор данных,в,является d-мерным вектором. Обратите внимание, что некоторые данные предпочитают использовать бинарную классификацию.В принципе, нет никакой разницы в том, какое число используется для представления бинарной классификации, но будут некоторые тонкие различия в математическом выражении.
Рейтинговое значение не является формальным термином в алгоритме машинного обучения, но мы могли бы установить такое понимание. Мы хотим строить по образцуоценочная функция, его основная природа очень проста, то есть требования и целевые значенияОдин и тот же знак, то есть положительный образец оценивается как положительное число, а отрицательный образец оценивается как отрицательное число, поэтому окончательная функция бинарной классификации имеет вид.
Итак, как мы строим скоринговую функцию? Интуитивная идея состоит в том, что образецВзвешенное суммирование каждого атрибута может отражать важность каждого атрибута в оценке Оценка, установленная таким образом, не обязательно имеет различительный эффект при значении 0, поэтому добавляется член смещения, поэтому функция оценки, многие алгоритмы могут быть получены из этой базовой функции оценки.
Основным стандартом для оценки проблемы двух классов является частота ошибок классификации.Для каждой выборки, если вы вычисляете ее функцию потерь, правильная потеря классификации равна 0, а потеря ошибки классификации равна 1. Эта функция потерь обычно называется 0 -1 функция потерь может быть записана как.
Если рассматривать положительные и отрицательные образцы единообразно, пусть, то когда классификация верна,всегда должно быть положительным значением, назовем его абсолютным рейтинговым значением,является мерой правильности классификации. но, такэто окусочная функция. С точки зрения теории оптимизации эта функция не может найти градиент илисубградиент, поэтому необходимо найти его приближение для оптимизации. это приближениеОсновной критерий для: всегда неотрицательна; когда она мала,очень маленький.
Рейтинговые значения являются атрибутамиЛинейная комбинация , с другой точки зрения, значение балла также относится к весулинейная комбинация . Как правило, мы будемПревратитесь в новое функциональное пространство, чтобы получить. тогда рейтинг. Приведенный выше анализ в основном такой же, но сложность модели выше. Следующий анализ по-прежнему проводится в исходном пространстве, если не указано иное.
1 Линейная регрессия
Значение рейтинга должно иметь тот же знак, что и целевое значение.Если цель задана более узко, значение рейтинга может быть установлено напрямую как, Это задача линейной регрессии, и функция потерь использует квадрат ошибки (это можно понять интуитивно, а также можно считать, что ошибка выборки соответствует нормальному распределению, полученному с точки зрения максимальная вероятность, которая не является предметом рассмотрения в этой статье). уведомление, поэтому функция ошибки соответствует абсолютному значению рейтингаквадратичная функция. Как видно из рисункавсегда больше, чем, и когдаотносительно маленький,также относительно невелик, поэтому его можно использовать какприближение.
Линейная регрессия имеет закрытые решения, так что использовать линейную регрессию для бинарной классификации очень просто, но эффект в целом не очень хороший, почему? отИз кривой видно, что при большом абсолютном значении баллаОн должен быть равен 0. Интуитивно большой абсолютный балл должен быть хорошим показателем для высокой степени различения, ноНеразумно давать более строгое наказание. Линейная регрессия может дать довольно хорошийзначение, которое можно использовать в качестве начального значения для других алгоритмов.
2 Обучение персептрона
Обучение персептрона можно понять с помощью следующей интуитивной идеи: для абсолютного значения рейтинга, когда оно положительное, классификация верна, мы считаем ошибку равной 0, а когда оно отрицательное, мы думаем, что чем дальше от 0 значение, тем больше ошибка, Прямо сейчас,отИз кривой такжеАппроксимация , хотя это тоже кусочная функция, позволяет получить субградиенты,, градиент считается равным 0, когдачас,, используя стохастический градиентный спуск,То есть оптимизируйте только при наличии ошибки оценки, что и делает алгоритм обучения персептрона.
3. Машины опорных векторов
Для функции ошибок, изученной персептроном, мы можем оптимизировать ее. Мы надеемся, что абсолютное значение оценки должно быть достаточно большим, чтобы мы могли быть более уверены, что выборка является положительной выборкой. Учитывая, чтоэто оМасштабируемый, может быть определен достаточно большим, чтобы быть больше 1. Так что есть, эта функция потерь называется функцией потерь шарнира. Учитывая структурный риск, нашей целью оптимизации является
С помощью метода резервной переменной он может стать машиной опорных векторов с мягким интервалом, а модель может быть получена с помощью квадратичного программирования.
С точки зрения значения оценки достаточно большое значение оценки делает модель более устойчивой к новым выборкам, и именно здесь машина опорных векторов превосходна. Если вводится пространство признаков, в процессе решения машины опорных векторов необходимо вычислить большое количество внутренних продуктов.Метод ядра может быть введен для упрощения внутреннего произведения пространства признаков в функцию ядра исходного пространства. .
4 Логистическая регрессия
существуетНа основе значения мы надеемся, что он может рассчитать вероятность для измерения вероятности или степени правильной классификации. вскоредиапазон значений отсопоставить с, то сигмовидная функция — хороший выбор, она может найти градиент, а вероятность в 0 точно равна 0,5. который
Затем мы снова моделируем функцию потерь на основе этой сигмовидной функции., мы просим, чтобы функция потерь была примерноУменьшение, а оно всегда положительное, рассмотрим вероятность логарифмирования, а затем возьмем отрицательный знак, поэтому
Как видно из рисунка, он такжеприближение . Возьмите логарифмическую функцию потерь в качестве цели оптимизации.
Это логистическая регрессия с регуляризацией, посколькуВезде дифференцируемый, поэтому его можно решить с помощью методов оптимизации, таких как градиентный спуск.
5 AdaBoost
Показательная функция также может удовлетворять приближениюОсновное условие , т. е. функция потерь определяется как.
Экспоненциальная функция потерь в сочетании с аддитивной моделью может вывести алгоритм AdaBoost.
Так называемую аддитивную модель можно понять следующим образом: предположим, мы получаем d-мерный вектор в пространстве признаковСоответственно, существует d слабых классификаторов, то есть классификаторов с показателем точности на 50% выше, чем у случайного угадывания. Так называемый метод Boost предназначен для эффективного объединения этих слабых классификаторов для создания сильных классификаторов. Аддитивная модель по-прежнему остается линейной моделью. Есть еще функция подсчета очков, т.к.. (Учитывая, что сам слабый классификатор может быть необъективным,. ) только здесьПредставляет слабый классификатор, а не простое преобразование атрибута (по сути, это тоже преобразование атрибута).
AdaBoost — это пошаговый итеративный процесс, предполагающий, что послеКольцо было оценено функцией, вПосле итераций получаем,но, цель оптимизации AdaBoost состоит в том, чтобы минимизировать функцию оценки, полученную на каждом шаге, по отношению к экспоненциальной функции потерь, а именно
Дальнейший вывод этой формулы здесь подробно описываться не будет.
резюме
Выше было введено шесть видов функций потерь. Все они являются монотонными невозрастающими функциями значения оценки. Последние пять связаны с приближенной заменой функции потерь 0-1. Можно ли получить решение исходной задачи с помощью Решая функцию замещения, есть углубленное исследование, называемое проблемой «постоянства» потери замещения.[3].
Кроме того, если мы хотим найти положительные примеры всех видов выборки и отсортировать их, то значение балла должно иметь характеристики сортировки при участии в оптимизации.Логарифмическая потеря и экспоненциальная потеря монотонно уменьшаются, а расчет модели с ними в качестве цели оптимизации. Полученные значения оценок могут участвовать в сортировке, а остальные функции потерь не являются монотонно убывающими, поэтому соответствующие значения оценок не подходят для сортировки.