Краткое изложение концепций для простого входа в машинное обучение (2)

машинное обучение искусственный интеллект алгоритм модульный тест

Приветствую всех вСообщество Юнцзя, получить больше крупной технической практики Tencent по галантерее~

Автор: Сю Мин

В продолжение предыдущей статьи:Сводные примечания к концепции машинного обучения (1)

8) Логистическая регрессия

Логистическая регрессия, также известная как логистический регрессионный анализ, представляет собой обобщенную модель линейного регрессионного анализа, которая часто используется в интеллектуальном анализе данных, автоматической диагностике заболеваний, экономическом прогнозировании и других областях. Например, обсудите факторы риска, вызывающие заболевания, и спрогнозируйте вероятность возникновения заболевания на основе факторов риска. Взяв в качестве примера анализ рака желудка, были выбраны две группы людей, одна из которых была группой рака желудка, а другая - группой нежелудочного рака.Эти две группы людей должны иметь разные признаки и образ жизни. Таким образом, зависимая переменная — это рак желудка или нет, значение — «да» или «нет», а независимые переменные могут включать многие, такие как возраст, пол, привычки в еде, инфекция Helicobacter pylori и так далее. Независимые переменные могут быть либо непрерывными, либо категориальными. Затем с помощью логистического регрессионного анализа можно получить веса независимых переменных, чтобы мы могли приблизительно понять, какие факторы являются факторами риска развития рака желудка. В то же время по весу можно спрогнозировать возможность онкологического заболевания человека по факторам риска.

Рассмотрим вектор с p независимыми переменными, задайте условную вероятность- вероятность возникновения относительно события, основанного на наблюдениях. Модель логистической регрессии может быть выражена как:

Функция формы в правой части приведенного выше уравнения называется логистической функцией. На рисунке ниже показана форма его функционального графика.

в. Если есть номинальная переменная, сделайте ее фиктивной переменной. Номинальная переменная с k значениями станет k-1 фиктивными переменными. Таким образом, есть

Условная вероятность того, что событие не произойдет, определяется как

Тогда отношение вероятности того, что событие произойдет, к тому, что событие не произойдет, равно

Это отношение называется шансами на событие или, для краткости, шансами. так как0<p<1,故odds>0. Возьмем логарифм шансов, чтобы получить линейную функцию

Предположим, что имеется n выборок наблюдения, а наблюдаемые значения равны. Предполагатьчтобы получить yi=1 при заданных условиях (исходный) Вероятность. При тех же условиях yi = 0 (), условная вероятность. Таким образом, вероятность получить наблюдение равна

Поскольку наблюдения независимы, их совместное распределение может быть выражено как произведение маргинальных распределений.

Приведенная выше формула называется функцией правдоподобия n наблюдений. Наша цель — найти оценки параметров, которые максимизируют значение этой функции правдоподобия. Следовательно, ключом к оценке максимального правдоподобия является нахождение параметров, так что приведенная выше формула достигает максимального значения. Возьмем логарифм вышеуказанной функции

Приведенная выше формула называется логарифмической функцией правдоподобия. Для того, чтобы оценить параметры, которые максимизируютзначение .

Дифференцирование этой функции дает p + 1 уравнение правдоподобия.

Приведенное выше уравнение называется уравнением правдоподобия. Чтобы понять приведенные выше нелинейные уравнения, метод Ньютона-Рафсона применяется для итеративного решения.

9) Байесовская классификация

Принцип классификации байесовского классификатора заключается в использовании байесовской формулы для вычисления апостериорной вероятности объекта через априорную вероятность объекта, то есть вероятности принадлежности объекта к определенному классу, и выборе класса с наибольшей апостериорной вероятностью. вероятность как объект класса, к которому он принадлежит. Априорная вероятность относится к вероятности, полученной в соответствии с прошлым опытом и анализом, таким как формула общей вероятности, которая часто используется как вероятность «причины» в проблеме «поиска следствия от причины». Апостериорная вероятность относится к вероятности повторной коррекции после получения информации о «результате», как в формуле Байеса. Это «следствие» в проблеме «держаться за следствие и искать причину». Априорная вероятность и апостериорная вероятность неразрывно связаны, и расчет апостериорной вероятности должен основываться на априорной вероятности. Апостериорная вероятность на самом деле является условной вероятностью. В настоящее время существует четыре основных типа байесовских классификаторов: NB, TAN, BAN и GBN.

Наивный байесовский классификатор (или NBC) возник из классической математической теории и имеет прочную математическую основу и стабильную эффективность классификации. В то же время модель NBC требует оценки нескольких параметров, не чувствительна к отсутствующим данным, а алгоритм относительно прост. Теоретически модель NBC имеет наименьшую частоту ошибок по сравнению с другими методами классификации. Но это не всегда так, потому что модель НБК предполагает независимость атрибутов друг от друга, что часто не соответствует действительности в практических приложениях, что оказывает определенное влияние на корректность классификации модели НБК. Левое изображение представляет собой наивную байесовскую сеть с независимыми BCD, а правое изображение показывает общую байесовскую сеть и связь между BCD. Байесовские сети не цикличны.

Алгоритм TAN (Tree Augmented Naive Bayes, улучшенный древовидный байесовский классификатор TAN) уменьшает предположение о независимости между любыми атрибутами в NB, обнаруживая зависимости между парами атрибутов. Это реализуется путем добавления ассоциаций (ребер) между парами атрибутов на основе структуры сети NB. Метод реализации: использовать узлы для представления атрибутов, использовать направленные ребра для представления зависимостей между атрибутами, использовать атрибуты категории в качестве корневого узла, а все остальные атрибуты — в качестве его дочерних узлов. Как правило, пунктирные линии используются для представления ребер, требуемых NB, а сплошные линии используются для представления вновь добавленных ребер. Граница между атрибутами Ai и Aj означает, что влияние атрибута Ai на категориальную переменную C также зависит от значения атрибута Aj. Эти добавленные ребра должны удовлетворять следующим условиям: категориальная переменная не имеет родительского узла, и каждый атрибут имеет родительский узел категориальной переменной и не более одного другого атрибута в качестве родительского узла. После нахождения этого набора связанных ребер совместное распределение вероятностей набора случайных величин может быть рассчитано следующим образом: где ΠAi представляет родительский узел Ai. Поскольку в алгоритме TAN рассматривается корреляция между (n-1) парными атрибутами среди n атрибутов, алгоритм в определенной степени снижает предположение о независимости между атрибутами, но различий между атрибутами может быть больше. считается, поэтому сфера его применения все еще ограничена.

Классификатор BAN (BN Augmented Naive Bayes, BAN) дополнительно расширяет классификатор TAN, позволяя отношениям между каждым узлом признаков формировать граф, а не просто дерево.

BMN (Bayes Multi-Net classifier) ​​как классификатор соответствует набору байесовских сетей, а каждое возможное значение узла класса соответствует байесовской сети. BMN можно рассматривать как обобщение BAN, BAN считает, что связь между разными классами и признаками неизменна, а BMN считает, что связь между признаками может быть разной для разных значений переменных класса.

GBN (Общая байесовская сеть, Обобщенная байесовская сеть) является неограниченным байесовским сетевым классификатором.Большое отличие от других байесовских сетевых классификаторов заключается в том, что в других классификаторах переменные класса используются как Специальный узел является родительским узлом каждого узла признаков, а узел функции считается общим узлом в GBN. GBN предполагает единое совместное распределение вероятностей для всего набора данных, в то время как BMN предполагает разные совместные распределения вероятностей для разных классов. Следовательно, GBN больше подходит для приложений, в которых наборы данных имеют единую внутреннюю модель вероятности, а для приложений, где зависимости между признаками разных типов наборов данных совершенно разные, больше подходит BMN.

LBR (ленивое изучение байесовских правил, классификатор ленивых байесовских правил LBR)

HNB (скрытый наивный байесовский алгоритм)

DMNB (дискриминативный полиномиальный наивный байесовский метод)

10) Классификация опорных векторов

Машина опорных векторов (Support Vector Machine) Название звучит ослепительно, и функция очень ослепительна, но формула часто вызывает головокружение для понимания. Поэтому в этой статье делается попытка объяснить принцип SVM без формулы, чтобы не отпугнуть читателя. Есть четыре ключевых термина для понимания SVM: гиперплоскость разделения, гиперплоскость максимального края, мягкий край и функция ядра.

Разделяющая гиперплоскость (разделяющая гиперплоскость): при решении задач классификации нам нужна граница решения, точно так же, как граница Чухе-Хана, мы оцениваем A на стороне границы, а мы оцениваем B на другой стороне границы. Эта граница решения разделяет два типа вещей, а линейная граница решения является разделяющей гиперплоскостью.

Гиперплоскость с максимальным запасом: может быть много разделяющих гиперплоскостей.Как найти лучшую?Подход SVM состоит в том, чтобы найти «среднюю». Другими словами, эту плоскость следует держать как можно дальше от обеих сторон, чтобы оставить достаточный запас, уменьшить ошибку обобщения и обеспечить надежность. Или, говоря китайским языком, он называется «Чжичжун». Когда река является государственной границей, осевая линия водного пути является границей, которая является воплощением гиперплоскости наибольшего края. Математический способ найти эту максимальную маргинальную гиперплоскость — задача квадратичного программирования.

Мягкая маржа: Но таких красивых вещей в мире нет, во многих случаях это смешанное состояние «у тебя есть я, у меня есть ты». Маловероятно, что один самолет идеально разделит два класса. В случае линейной неразделимости необходимо учитывать мягкие края. Мягкие края в исключительных случаях позволяют отдельным образцам перемещаться по другим типам газона. Но есть компромисс между использованием параметров, чтобы сохранить разделение максимальных ребер, и тем, чтобы исключение не было слишком возмутительным. Этот параметр представляет собой степень штрафа C за ошибочную классификацию.

Функция ядра, чтобы решить проблему идеального разделения, SVM также предлагает идею, которая состоит в том, чтобы отобразить исходные данные в многомерное пространство, Интуитивно вы можете почувствовать, что данные в многомерном пространстве становятся разреженными, что выгодно Отличить врага от меня». Тогда способ сопоставления - использовать «функцию ядра». Если этот «метод ядра» выбран правильно, данные в многомерном пространстве легко разделить линейно. И можно показать, что всегда есть функция ядра, которая может отображать набор данных в разделимые многомерные данные. Не радуйтесь, когда увидите это, отображение в многомерном пространстве не лишено пользы и вреда. Недостатком наличия слишком большого количества измерений является переобучение.

Следовательно, выбор подходящей функции ядра и параметра мягкого края C является важным фактором в обучении SVM. В целом, чем сложнее функция ядра, тем больше модель подвержена переоснащению. С точки зрения параметра C его можно рассматривать как обратную величину лямбда в алгоритме Лассо.Чем больше C, тем больше модель склонна к переоснащению, и наоборот. Как выбрать в актуальной задаче? Старейшим путем человечества, методом проб и ошибок.

Обычно используются следующие функции ядра: 1) Линейная: если она используется, она становится линейной векторной машиной, и эффект в основном эквивалентен логистической регрессии. Но он может обрабатывать очень разные ситуации, такие как интеллектуальный анализ текста. 2) полиномиальная: полиномиальная функция ядра, подходящая для задач обработки изображений. 3) Радиальный базис, функция ядра Гаусса, самый популярный и простой в использовании выбор. Параметр включает сигму, если установить слишком маленькое значение, будет переобучение. 4) сигмовидная: функция ядра обратной кривизны, в основном используемая для функции активации нейронной сети.

11) Дерево решений классификации ID3

Алгоритм ID3 — это жадный алгоритм, используемый для построения деревьев решений. Алгоритм ID3 произошел от Системы обучения понятий (CLS) и использует скорость снижения информационной энтропии в качестве критерия для выбора тестовых атрибутов, то есть в каждом узле атрибут с наибольшим информационным приростом, который еще не использовался для в качестве критерия деления выбрано деление, а затем продолжать этот процесс до тех пор, пока результирующее дерево решений не сможет идеально классифицировать обучающие примеры.

Алгоритм ID3 был впервые предложен Дж. Россом Куинланом в Сиднейском университете в 1975 г. Ядром алгоритма является «информационная энтропия». Алгоритм ID3 вычисляет прирост информации для каждого атрибута и считает, что атрибут с высоким приростом информации является хорошим атрибутом Каждое подразделение выбирает атрибут с наибольшим приростом информации в качестве стандарта разделения и повторяет этот процесс до тех пор, пока не будет получено дерево решений, которое может идеально классифицировать обучающие выборки.

Деревья решений классифицируют данные для прогнозирования. Метод дерева решений сначала формирует дерево решений на основе данных обучающего набора.Если дерево не может дать правильную классификацию всех объектов, выберите некоторые исключения для добавления к данным обучающего набора и повторяйте процесс, пока не будет сформирован правильный набор решений . Дерево решений представляет собой древовидную структуру набора решений. Дерево решений состоит из узлов решений, ветвей и листьев. Верхний узел в дереве решений — это корневой узел, а каждая ветвь — это новый узел решения или лист дерева. Каждый узел решения представляет проблему или решение и обычно соответствует атрибуту объекта, подлежащего классификации. Каждый листовой узел представляет собой возможный результат классификации. В процессе обхода дерева решений сверху вниз в каждом узле будет встречаться тест, и разные тестовые выходы задачи на каждом узле приведут к разным ветвям, и, наконец, будет достигнут листовой узел. Это процесс использования дерева решений для классификации с использованием нескольких переменных для определения категории, к которой оно принадлежит.

Вот некоторые основные понятия теории информации:

Определение 1: если есть n сообщений с одинаковой вероятностью, вероятность p каждого сообщения равна 1/n, а количество информации, передаваемой сообщением, равно -Log2(1/n).

Определение 2: Если имеется n сообщений и задано распределение вероятностей P=(p1, p2...pn), количество информации, передаваемой этим распределением, называется энтропией P и обозначается как .

Определение 3: Если набор записей T разделен на независимые классы C1C2..Ck в соответствии со значением атрибута категории, количество информации, необходимой для определения того, к какому классу принадлежит элемент T, равно Info(T)=I(p ), где P — распределение вероятностей C1C2…Ck, то есть P=(|C1|/|T|,…..|Ck|/|T|)

Определение 4: Если мы сначала разделим T на множества T1, T2...Tn в соответствии со значением некатегориального атрибута X, то количество информации класса элементов в T можно получить, определив средневзвешенное значение Ti, то есть значение Info(Ti) Средневзвешенное значение равно:

Info(X, T)=(i=1 to n sum)((|Ti|/|T|)Info(Ti))

Определение 5: Степень прироста информации — это разница между двумя объемами информации, один из которых представляет собой объем информации, который необходимо определить для элемента Т, а другой — объем информации, который необходимо определить после получено значение признака X. Количество информации элемента, формула степени прироста информации:

Gain(X, T)=Info(T)-Info(X, T)

ID3 создал алгоритмы деревьев решений C4.5 и CART.

Прирост информации на самом деле является мерой, используемой в алгоритме ID3 для выбора атрибута. Он выбирает атрибут с наибольшим приростом информации в качестве атрибута разделения узла N. Это свойство минимизирует количество информации, необходимой для классификации кортежей в результирующем разделе. Желаемая информация, необходимая для классификации кортежей в D:

Информация (D) также называется энтропией.

Теперь предположим, что кортежи в D разделены атрибутом A, а атрибут A делит D на v различных классов. После этого деления информация, необходимая для получения точной классификации, измеряется по следующей формуле:

Прирост информации определяется как разница между первоначальным информационным спросом (то есть только на основе соотношения классов) и новым спросом (то есть полученным после деления А), а именно


Вообще говоря, для кортежа с несколькими атрибутами почти невозможно полностью разделить их одним атрибутом, иначе глубина дерева решений может быть только 2. Из этого видно, что после того, как мы выбрали атрибут A, предположим, что кортеж разделен на две части A1 и A2.Поскольку A1 и A2 могут быть дополнительно разделены другими атрибутами, возникает новая проблема: выбрать для классификации? Ожидаемой информацией, необходимой для классификации кортежей в D, является Info(D), тогда аналогичным образом, когда мы делим D на v подмножеств Dj (j=1,2,...,v) через A, нам нужно классифицировать Dj. кортежей искомой информацией является Info(Dj), а всего имеется v классов, поэтому для реклассификации v наборов необходимая информация представляет собой формулу (2). Отсюда видно, что если формула (2) меньше, значит ли это, что информация, необходимая нам для классификации множеств, делящихся на А, меньше? Для данного обучающего набора Info(D) фактически фиксирована, поэтому в качестве точки разделения выбирается атрибут с наибольшим приростом информации.

Однако использование прироста информации на самом деле имеет недостаток, заключающийся в том, что оно смещается в сторону атрибутов с большим количеством значений. Что это обозначает? То есть в обучающем наборе чем больше различных значений принимает атрибут, тем больше вероятность того, что он будет использоваться в качестве разделяемого атрибута. Например, в обучающем наборе 10 кортежей, для определенного знака зодиака А требуется десять чисел от 1 до 10. Если А разбить, то он будет разбит на 10 классов, тогда для каждого класса Info(Dj)= 0 , так что формула (2) равна 0, информационный прирост (3), полученный при этом делении признака, является наибольшим, но очевидно, что это деление бессмысленно.

связанное предложение

Сводные примечания к концепции машинного обучения (1)
Сводные примечания к концепции машинного обучения (3)
Сводные примечания к концепции машинного обучения (4)

Эта статья была разрешена автором для публикации в сообществе Tencent Cloud Technology Community, укажите это при перепечатке.первоисточник