5 часто используемых моделей машинного обучения, их преимущества и недостатки.

Резюме:В моделях машинного обучения существует множество различных подходов, которые можно использовать для решения задач классификации и регрессии. Здесь я попытаюсь кратко обобщить шаблоны алгоритмов каждой модели, надеясь помочь вам найти решение, подходящее для конкретной проблемы.

В моделях машинного обучения существует множество различных подходов, которые можно использовать для решения задач классификации и регрессии. Для одной и той же проблемы эти разные модели можно рассматривать как черный ящик для решения проблемы. Однако каждая модель основана на другом алгоритме и по-разному работает с разными наборами данных. Лучший способ сделать это — использовать перекрестные ссылки, чтобы определить, какая модель лучше всего работает с тестируемыми данными. Здесь я попытаюсь кратко обобщить шаблоны алгоритмов каждой модели, надеясь помочь вам найти решение, подходящее для конкретной проблемы.

Общие модели машинного обучения

1. Наивная байесовская модель

Наивная байесовская модель — простая, но важная модель, это порождающая модель, то есть она моделирует проблему совместно, используя правило умножения вероятности, мы можем получить:

Из-за сложности приведенной выше формы Наивный Байес делает предположение, что при заданном y вероятности генерации между x1,...,xn полностью независимы, то есть:

Заметим, что это не означает, что вероятности появления x1,...,xn независимы друг от друга, но независимы при условии заданного y, т. е. это своего рода «условная независимость».Для студентов, которые разбираются в вероятностных графических моделях, следующая графическая модель может хорошо проиллюстрировать эту проблему:

Поскольку мы говорим, что Наивный Байес — это порождающая модель, каков ее порождающий процесс? Для задачи классификации спама по электронной почте процесс ее генерации выглядит следующим образом:

Во-первых, используйте p(y), чтобы получить y, чтобы определить, является ли текущее сгенерированное электронное письмо спамом или нет.
Определите длину n электронного письма, а затем выберите x1, x2,...,xn из p(xi|y) в соответствии с y, полученным на предыдущем шаге.

Это наивная байесовская модель. Очевидно, что предположение Наивного Байеса является сильным предположением, которое редко удовлетворяется в практических приложениях, поскольку оно предполагает, что до тех пор, пока электронное письмо будет определено как спам или нет, содержимое электронного письма будет сгенерировано автоматически. самостоятельны, и между словами нет связи.

Преимущества и недостатки наивной байесовской модели

преимущество:Он хорошо работает с небольшими данными, подходит для задач множественной классификации и подходит для добавочного обучения.
недостаток:Чувствителен к представлению входных данных.

2. Модель дерева решений

Модель дерева решений представляет собой простой и удобный в использовании непараметрический классификатор. Он не требует каких-либо априорных предположений о данных, скорость вычислений высока, результаты легко интерпретировать, а надежность высока.

В сложных ситуациях принятия решений часто требуется многоуровневое или многоэтапное принятие решений. Когда поэтапное решение завершено, может возникнуть m новых различных естественных состояний; в каждом естественном состоянии есть m новых стратегий на выбор, которые будут давать разные результаты и снова сталкиваться с новым естественным состоянием, продолжая генерировать серию процессы принятия решений, такое принятие решений называется последовательным принятием решений или многоуровневым принятием решений.

В настоящее время, если вы продолжаете следовать вышеуказанным критериям принятия решений или использовать матрицу выгод для анализа проблемы, можно легко сделать соответствующие табличные отношения очень сложными. Дерево решений является эффективным инструментом, который может помочь лицам, принимающим решения, проводить последовательный анализ решений.Метод заключается в том, чтобы выразить соответствующую стратегию, естественное состояние, вероятность и значение прибыли в задаче с помощью линий и графиков в форме, похожей на дерево.

Модель дерева решений представляет собой древовидную диаграмму, состоящую из точек принятия решений, точек стратегии (точек событий) и результатов. Обычно используется при последовательном принятии решений. Обычно в качестве решения используется максимальное ожидаемое значение прибыли или минимальные ожидаемые затраты. Критерий, и решение графически решается в различных условиях.Выгода значения различных программ, а затем путем сравнения, чтобы принять решение.

Преимущества и недостатки модели дерева решений

преимущество:Неглубокие деревья решений визуально очень интуитивно понятны и легко интерпретируются; им не нужно делать никаких предположений о структуре и распределении данных; они могут фиксировать взаимодействие между переменными.
недостаток:Глубокие деревья решений трудно визуализировать и интерпретировать; деревья решений легко слишком тонко настроить выборочные данные и потерять стабильность и защиту от ударов; деревья решений имеют относительно большой спрос на размер выборки; функциональность работы с пропущенными значениями очень ограничена .

3. Алгоритм КНН

KNN — алгоритм ближайшего соседа Основная идея состоит в том, что если большинство из k ближайших соседей образца в пространстве признаков принадлежат к определенной категории, образец также принадлежит к этой категории и имеет характеристики образцов в этой категории.

Этот метод определяет только категорию пробы, подлежащей классификации, в соответствии с категорией ближайшей одной или нескольких проб при принятии решения о классификации. Метод kNN связан только с очень небольшим количеством соседних выборок при принятии решений о классе. Поскольку метод kNN в основном опирается на ограниченные окружающие выборки, а не на метод различения домена класса для определения класса, к которому он принадлежит, метод kNN более эффективен, чем другие методы для разделения множества выборок, которые имеют более пересечения или перекрытия в домене класса. Основной процесс:

1. Вычислить расстояние между каждой точкой выборки в обучающей выборке и тестовой выборке (общие показатели расстояния включают евклидово расстояние, расстояние Махаланобиса и т. д.);

2. Отсортируйте все значения расстояния выше;

3. Выберите первые k образцов с наименьшим расстоянием;

4. Проголосуйте в соответствии с метками k образцов, чтобы получить окончательную классификационную категорию;

Как выбрать оптимальное значение K, зависит от данных. В общем, большее значение K может уменьшить влияние шума во время классификации. Но это стирает границы между категориями. Хорошее значение K можно получить с помощью различных эвристических методов, таких как перекрестная проверка. Кроме того, наличие шума и некоррелированных собственных векторов снизит точность алгоритма K-ближайшего соседа.

Алгоритм ближайшего соседа имеет сильные результаты согласованности. Поскольку данные имеют тенденцию быть бесконечными, алгоритм гарантирует, что частота ошибок не будет превышать удвоенную частоту ошибок байесовского алгоритма. Для некоторых хороших значений K K-ближайшие соседи гарантируют, что частота ошибок не будет превышать байесовскую частоту ошибок.

Преимущества и недостатки алгоритма KNN

преимущество:Простая, легкая для понимания, простая в реализации, не требует оценки параметров, обучения; зрелая теория, может использоваться как для классификации, так и для регрессии; может использоваться для нелинейной классификации; подходит для классификации редких событий; высокая точность данных; отсутствие предположений. , нечувствителен к выбросам.
недостаток:Большой объем вычислений; проблема дисбаланса семплов (то есть одни классы имеют большое количество семплов, а другие — мало); требует много памяти; плохая разборчивость, невозможность дать правила, подобные деревьям решений.

4. Алгоритм SVM

SVM (Машина опорных векторов) относится к машине опорных векторов, которая является распространенным методом дискриминации. В области машинного обучения это модель обучения с учителем, которая обычно используется для распознавания образов, классификации и регрессионного анализа.

Основную идею SVM можно свести к двум пунктам:

1. Он анализирует линейно разделимый случай.Для линейно неразделимого случая алгоритм нелинейного отображения используется для преобразования линейно неразделимых выборок низкоразмерного входного пространства в многомерное пространство признаков, чтобы сделать их линейно разделимыми, поэтому что многомерный признак Можно линейно анализировать нелинейные характеристики образца с помощью линейного алгоритма.

2. Он строит оптимальную гиперплоскость в пространстве признаков на основе теории минимизации структурного риска, так что обучаемый может быть глобально оптимизирован, а ожидание во всем пространстве выборки может удовлетворять определенной верхней границе с определенной вероятностью.

Преимущества и недостатки алгоритма SVM

преимущество:Может использоваться для линейной/нелинейной классификации, а также для регрессии; низкая ошибка обобщения; простота интерпретации; низкая вычислительная сложность.
недостаток:Он более чувствителен к выбору параметров и функций ядра, оригинальный SVM хорош только для решения задач бинарной классификации.

5. модель логистической регрессии

Логистическая регрессия, также известная как логистический регрессионный анализ, представляет собой обобщенную модель линейного регрессионного анализа, которая часто используется в интеллектуальном анализе данных, автоматической диагностике заболеваний, экономическом прогнозировании и других областях. Например, обсудите факторы риска, вызывающие заболевания, и спрогнозируйте вероятность возникновения заболевания на основе факторов риска.

Взяв в качестве примера анализ рака желудка, были выбраны две группы людей, одна из которых была группой рака желудка, а другая - группой нежелудочного рака.Эти две группы людей должны иметь разные признаки и образ жизни. Таким образом, зависимая переменная — это рак желудка или нет, значение — «да» или «нет», а независимые переменные могут включать многие, такие как возраст, пол, привычки в еде, инфекция Helicobacter pylori и так далее. Независимые переменные могут быть либо непрерывными, либо категориальными. Затем с помощью логистического регрессионного анализа можно получить веса независимых переменных, чтобы мы могли приблизительно понять, какие факторы являются факторами риска развития рака желудка. В то же время по весу можно спрогнозировать возможность онкологического заболевания человека по факторам риска.

Применимые условия модели логистической регрессии:

1. Зависимая переменная представляет собой двоичную категориальную переменную или частоту возникновения события и является числовой переменной. Однако следует отметить, что индикатор явления двойного счета не подходит для логистической регрессии.

2. И остатки, и зависимая переменная должны подчиняться биномиальному распределению. Биномиальное распределение соответствует категориальной переменной, поэтому оно не является нормальным распределением, поэтому вместо использования метода наименьших квадратов для решения задачи оценки и проверки уравнения используется метод максимального правдоподобия.

3. Независимая переменная и логистическая вероятность связаны линейно.

4. Каждый объект наблюдения независим друг от друга.

Суть логистической регрессии: разделить вероятность появления на вероятность отсутствия и логарифмировать. Именно это менее громоздкое преобразование изменяет противоречие между интервалами значений и зависимостью кривой между зависимой и независимой переменными. Причина в том, что вероятность появления и не появления становится отношением , а это отношение является буфером, который расширяет диапазон значений, а затем выполняет логарифмическое преобразование, и изменяется вся зависимая переменная.

Мало того, это преобразование часто приводит к линейной зависимости между зависимыми и независимыми переменными, которая суммируется в соответствии с большим количеством практики. Следовательно, логистическая регрессия принципиально решает проблему того, что если зависимая переменная не является непрерывной переменной. Кроме того, логистика широко используется, потому что многие проблемы реального мира соответствуют ее модели. Например, происходит ли событие по отношению к другим числовым независимым переменным.

Преимущества и недостатки моделей логистической регрессии

преимущество:Реализация проста, объем вычислений очень мал, скорость очень высока, а ресурсы хранения невелики.
недостаток:Его легко подгонять, а общая точность невысока, он может решать задачи двух классификаций (софтмакс, полученный на этой основе, может использоваться для множественной классификации) и должен быть линейно отделимым.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~