«Машинное обучение» (2) — глава 3 «Арбузной книги»

Основная форма линейной модели

Дан пример пар, описываемых d атрибутами $x = (x_{1};x_{2};...;x_{d})$ ,в ${x_{i}}$ первыйЗначение каждого атрибута, линейная модель пытается изучить функцию, которая предсказывает через линейную комбинацию атрибутов, а именно

Обычно записывается в векторной форме как

Линейная регрессия

Линейная регрессия пытается учиться

Используйте среднеквадратичную ошибку, чтобы измерить и минимизировать среднеквадратичную ошибку, то есть

Среднеквадратическая ошибка соответствует обычно используемому евклидову расстоянию или для краткости «евклидову расстоянию». Метод решения модели, основанный на минимизации среднеквадратичной ошибки, называется «методом наименьших квадратов». В линейной регрессии метод наименьших квадратов заключается в попытке найти линию, которая минимизирует сумму евклидовых расстояний всех выборок до линии.

Процесс решения w и b для минимизации среднеквадратичной ошибки называется методом наименьших квадратов «оценкой параметра» модели линейной регрессии. Продифференцируем среднеквадратичную ошибку по w и b соответственно, чтобы получить

Решение оптимального решения w и b в замкнутой форме можно получить, установив два приведенных выше уравнения равными нулю.

Более общий случай — это набор данных D, где выборки описываются d атрибутами. На данный момент мы пытаемся научиться

Это называется «множественная линейная регрессия». Точно так же w и b можно оценить с помощью метода наименьших квадратов. Для удобства обсуждения w и b преобразованы в векторную формуСоответственно, набор данных D представлен в видеРазмер матрицы X, где каждая строка соответствует примеру, первые d элементов строки соответствуют d значениям атрибутов примера, а последний элемент всегда равен 1, т.е.

Затем напишите разметку в векторной форметогда есть

когдаЕсли это матрица полного ранга или положительно определенная матрица, установите приведенную выше формулу в ноль, чтобы получить .

Когда это не матрица полного ранга, то есть мы часто сталкиваемся с большим количеством переменных, количество которых превышает количество выборок, в результате чего столбцов больше, чем строк X,Явно недоволен рангом. В этот момент несколько $\hat{w}$ , они оба минимизируют среднеквадратичную ошибку. Какой из них выбрать в качестве выходных данных, будет определяться индуктивным предпочтением алгоритма обучения, обычной практикой является введение члена регуляризации.

Предполагая, что мы считаем, что выходная метка, соответствующая примеру, является многострочной переменной в экспоненциальной шкале, тогда логарифм выходной метки может использоваться в качестве цели приближения усовершенствованной модели, то есть

Это «логарифмическая регрессия». на самом деле пытаясь сделатьподход ю. Суть в том, чтобы найти отображение нелинейной функции из входного пространства в выходное пространство.

В более общем случае, рассматривая монотонно дифференцируемую функцию g(.), пусть

Полученная модель называется «обобщенной линейной моделью», где функция g(.) называется «функцией связи». Очевидно, что логлинейная регрессия является частным случаем обобщенных линейных моделей, когда g(.)=ln(.).

логарифмическая регрессия шансов

Для задач классификации просто найдите монотонно дифференцируемую функцию, которая связывает истинную метку y задачи классификации с прогнозируемым значением модели линейной регрессии. Рассмотрим задачу бинарной классификации, выходные метки которой, а прогнозируемые значения, полученные моделью линейной регрессии, являются реальными значениями, поэтому просто преобразуйте реальные значения в значения 0/1. В идеале «функция единичного шага»

То есть, если прогнозируемое значение z больше нуля, оно оценивается как положительный пример, если оно меньше нуля, оно оценивается как отрицательный пример, а если прогнозируемое значение равно нулю, оно может оцениваться произвольно.

Но единичная ступенчатая функция разрывна, и мы надеемся найти «суррогатную функцию», которая в определенной степени аппроксимирует единичную ступенчатую функцию и является монотонно дифференцируемой. Логарифмическая функция (логистическая функция) является такой замещающей функцией:

Функция логарифмических шансов представляет собой «сигмоидальную функцию», которая преобразует z-значение в y-значение, близкое к 0 или 1, и ее выходные данные резко варьируются вокруг z=0, затем

Если y рассматривать как вероятность того, что образец x является положительным примером, то 1-y есть вероятность его отрицательного примера, отношение двух

Они называются «шансами» и отражают относительную вероятность того, что x является положительным примером. Логарифмирование шансов дает «логарифмические шансы (также известные как логит)».

Из вышеизложенного видно, что результат прогнозирования модели линейной регрессии фактически используется для аппроксимации логарифмической вероятности реальной оценки, поэтому соответствующая модель называется «логарифмической регрессией вероятности».

Оцените w и b для логарифмической регрессии шансов. Если y рассматривается как оценка апостериорной вероятности классано

очевидно есть

Используйте максимальную вероятность для оценки w и b. Учитывая набор данных, максимизируйте «логарифмическую вероятность» модели логарифмической регрессии.

Линейный дискриминантный анализ Фишера

Линейный дискриминантный анализ LDA (линейный дискриминантный анализ) — это классический метод линейного обучения, также известный как «дискриминантный анализ Фишера».

Идея LDA: по заданному набору обучающих выборок попытаться спроецировать выборки на прямую так, чтобы точки проекций подобных выборок были как можно ближе, а точки проекций разнородных выборок — как можно дальше; при классификации новых Образцы проецируются на ту же прямую, а затем по положению проецируемой точки определяется категория нового образца.

данный набор данныхсделатьсоответственно представляютНабор примеров классов, средний вектор, ковариационная матрица. Если данные проецируются на прямую w, распределение проекций центров двух типов выборок на прямую будет $w^{T}u_{0}$ и $w^{T}u_{1}$ ; Если все точки выборки проецируются на прямую, ковариации двух типов выборок равны $w^{T}\Sigma _{0}w$ и $w^{T}\Sigma _{1}w$ .

Чтобы спроецировать точки подобных выборок как можно ближе, ковариацию проекций точек подобных выборок можно сделать как можно меньше, т. е. $w^{T}\Sigma _{0}w + w^{T}\Sigma _{1}w$ быть как можно меньше, а чтобы точки проекций разнородных выборок были как можно дальше друг от друга, расстояние между центрами классов можно сделать как можно большим, т. е. $||w^{T}u_{0} - w^{T}u_{1}||_{2}^{2}$ как можно больше. Рассматривая и то, и другое одновременно, цель, которую нужно максимизировать, может быть получена

Мультиклассное обучение

Многоклассовые задачи обучения часто встречаются в реальных задачах. Некоторые методы обучения бинарной классификации могут быть непосредственно расширены до множественной классификации и использовать обучающиеся бинарной классификации для решения задач множественной классификации.

С учетом N категорий C1, C2,...

Есть три самые классические стратегии разделения: один против одного (OvO), один против остальных (OvR) и многие против многих (MvM).

OvO объединяет N классов парами, что приводит к задачам бинарной классификации N(N-1)/2;

OvR одновременно обучает N классификаторов с одним примером класса в качестве положительных примеров и всеми другими примерами классов в качестве отрицательных примеров.

OvR нужно обучить только N классификаторов, в то время как OvO нужно обучить N(N-1)//2 классификаторов, поэтому накладные расходы на хранение и время тестирования OvO обычно больше, чем у OvR. Однако при обучении каждый классификатор OvR использует для обучения все выборки, а каждый классификатор OvO использует выборки только двух категорий, поэтому при множестве категорий затраты времени на обучение OvO обычно выше, чем у OvR. . Что касается эффективности прогнозирования, она зависит от конкретного распределения данных, и в большинстве случаев они примерно одинаковы.

MvM каждый раз принимает несколько возможных классов как положительные классы и несколько других классов как антиклассы. Очевидно, что OvO и OVR являются частными случаями MvM.

проблема дисбаланса классов

Дисбаланс классов относится к ситуации, в которой количество обучающих примеров разных классов в задаче классификации сильно различается. Даже если количество обучающих примеров разных категорий в исходной задаче одинаково, дисбаланс категорий все равно может возникнуть после использования стратегий OvR и MvM.

Теперь предположим, что положительных примеров меньше, а отрицательных больше.

Метод обработки - перемасштабирование: субдискретизация, передискретизация, смещение порога

Недостаточная выборка: «недостаточная выборка» отрицательных примеров непосредственно в обучающем наборе, то есть удаление некоторых отрицательных примеров, чтобы количество положительных и отрицательных результатов было близким, а затем обучение;

Избыточная выборка: добавьте несколько положительных примеров, чтобы сблизить количество положительных и отрицательных моментов, а затем изучите

Сдвиг порога: учитесь непосредственно на исходном обучающем наборе, но при прогнозировании с помощью обученного классификаторазаложено в его решениях.

В приведенной выше формуле y выражает возможность положительного примера, вероятностьОн отражает отношение вероятности положительных примеров к вероятности отрицательных примеров, m+ представляет количество положительных примеров, а m- представляет количество отрицательных примеров, тогда наблюдаемая вероятность равна.

Затраты времени на недостаточную выборку обычно намного меньше, чем на передискретизацию, потому что первая отбрасывает множество контрпримеров, делая обучающий набор классификатора намного меньшим, чем исходный обучающий набор.

Масштабирование также является основой экономичного обучения. В обучении, чувствительном к затратам,использоватьможно заменить, гдецена неправильной классификации положительных примеров в отрицательные,это цена неправильной классификации отрицательных примеров в положительные примеры.