Аннотация: Стратегия обрезки дерева решений: сначала обрезка, а затем обрезка, чтобы решить проблему переобучения.
Эта статья опубликована в сообществе HUAWEI CLOUD.«Анализ роста и обрезки деревьев решений», оригинальный автор: chengxiaoli.
Дерево решений (Дерево решений) основано на известной вероятности возникновения различных ситуаций, путем формирования дерева решений для получения вероятности того, что ожидаемое значение чистой приведенной стоимости больше или равно нулю, оценки риска проекта и судить о его осуществимости.Графический метод, интуитивно использующий вероятностный анализ. Поскольку эта ветвь решений изображается в виде графа, подобного ветвям дерева, она называется деревом решений. В машинном обучении дерево решений представляет собой прогностическую модель, которая представляет собой отношение сопоставления между атрибутами объекта и значениями объекта, что является своего рода контролируемым обучением.
один. модель дерева решений
Прежде всего, что такое дерево решений? Дерево решений представляет собой древовидную структуру, похожую на блок-схему: каждый внутренний узел (узел ответвления/узел ветки) представляет функцию или атрибут, а каждый конечный узел представляет собой классификацию.
Основная проблема в процессе роста дерева решений заключается в том, что выбор узлов ветвления очень субъективен. Решение: используйте информационную энтропию или прирост информации, чтобы решить проблему субъективного суждения из-за людей, нужно только рассчитать информационную энтропию или прирост информации и изменить порядок процесса для правильной классификации.
Значение прироста информации: изменение информации до и после разделения набора данных.
Энтропия: В физике это относится к равномерному распределению энергии объекта Информационная энтропия: Мера неопределенности информации: формула: H(x)=-sum(plog(p)). Чем меньше информационная энтропия, тем меньше неопределенность, чем больше определенность, тем выше чистота информации. H(D) — энтропия набора данных D, вычисляемая по формуле:
Ck — количество k классов, появляющихся в наборе данных D, N — количество выборок, общее количество классов. H(D|A) — условная энтропия пары признака A с набором данных D, и ее значение: распределение Y в подмножестве Di. Метод расчета:
GainA (прирост информации A)=H_All (общая информационная энтропия)-H(A) (информационная энтропия с узлом A в качестве разделительного узла) Выбор узлов ветвления в дереве решений: чем больше прирост информации в качестве узла ветвления, тем больше прирост информации. Чем меньше информационная энтропия, тем меньше информационная неопределенность, тем больше определенность и выше чистота. Формула получения информации после синтеза:
Отношение прироста информации gR(D,A) признака A к обучающему набору D определяется как
HA (D) отображает способность функции A различать обучающий набор D, и скорость получения информации улучшается, поскольку прирост информации смещается в сторону недостатков значений функций, а скорость получения информации используется для дальнейшего разделения дерева решений.
Вышеуказанные алгоритмы принятия решений: алгоритм ID3 - прирост информации, алгоритм C4.5 - скорость прироста информации. Стратегия сокращения дерева решений: сначала сократить, а затем сократить, чтобы решить проблему переобучения.
два. Стратегия разделов ID3 и C4.5
Идея разделения алгоритмов ID3 и C4.5: выбирать узлы ветвления для построения дерева решений в соответствии с приростом информации или скоростью прироста информации, и рекурсивно строить дерево по очереди.
Основные этапы построения дерева решений:
(1) Если для деления используются все атрибуты, закончить сразу;
(2) Рассчитать прирост информации или скорость прироста информации для всех признаков и выбрать признак, соответствующий значению с большим приростом информации (например, узел) для классификации;
(3) Если разделение не завершено с использованием узла а в качестве узла разделения, то используйте другие узлы признаков, кроме узла а с большим приростом информации, для дальнейшего построения дерева решений. (рекурсивно построить дерево решений)
Условия остановки роста дерева решений:
-
Если для разделения используются все атрибуты, закончить сразу, если есть узлы, которые не были разделены, использовать голосование по большинству;
-
Если все образцы были классифицированы, закончить сразу;
-
Определите максимальную примесь для измерения;
-
Определить количество конечных узлов;
-
Определяет количество выборок, содержащихся в узле ответвления.
три. обрезка дерева решений
Дерево решений — это сложное дерево, которое полностью учитывает все точки данных и может переобучать.Чем сложнее дерево решений, тем выше степень переобучения. Процесс построения дерева решений является рекурсивным слоем, поэтому необходимо определить условие остановки, иначе процесс не остановится и дерево продолжит расти.
обрезать сначала: преждевременно завершить рост дерева решений. Предварительная обрезка снижает риск переобучения, сокращает время обучения и время тестирования деревьев решений, а также повышает риск недообучения.
после обрезки: относится к процессу обрезки после завершения роста дерева решений. - Эффективность обобщения сокращения с минимальной ошибкой (MEP), пессимистического сокращения ошибок (MEP) и сокращения сложности затрат (CCP) часто выше, чем у деревьев решений с предварительной обрезкой, а накладные расходы времени на обучение выше, чем у деревьев решений без обрезки и предварительной обрезки. деревья решений намного больше.
Суммировать:
Преимущества использования деревьев решений для классификации заключаются в том, что они очень интуитивно понятны, просты для понимания и обладают высокой эффективностью выполнения.Выполнение необходимо построить только один раз, и его можно использовать многократно. Однако он более эффективен для небольших наборов данных и не эффективен при работе с непрерывными переменными.Трудно прогнозировать непрерывные поля.Когда категорий много, ошибка увеличивается быстрее.
использованная литература
[1] Чен Лэй, Глубокое обучение и практика MindSpore [M], Издательство Университета Цинхуа: 2020.
[2] Чжугэ Юэ, Хулува, Машинное обучение с сотней лиц [М], Народная почта и телекоммуникационная пресса: 2020.
[3] Астон. Чжан, Ли Му. Практическое изучение глубокого обучения [M]. People's Posts and Tele Communications Press: 2020.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~