[Основы машинного обучения] CART — Полная интерпретация деревьев классификации и регрессии

Полное название дерева CART — дерево классификации и регрессии, которое можно использовать для классификации или регрессии. Независимо от классификации или регрессии, центральная идея состоит в том, чтобы найти оптимальную переменную сегментации и оптимальную точку сегментации, но в задаче классификации в качестве основы используется минимизация индекса Джини, а в задаче регрессии минимизация квадрата в качестве критерия используется ошибка. Далее мы проиллюстрируем два типа деревьев примерами.

1. Дерево классификации

Предварительные знания: коэффициент Джини

Коэффициент Джини, также известный как примесь Джини, показывает вероятность того, что случайно выбранный образец в наборе образцов будет неправильно классифицирован. Чем меньше значение, тем ниже вероятность того, что он будет неправильно классифицирован. Индекс Джини = вероятность того, что он будет выбран * вероятность того, что будучи неправильно классифицированным, в следующей формуле pk представляет вероятность того, что выбранная выборка принадлежит к категории k, тогда вероятность того, что эта выборка будет неправильно классифицирована, равна (1-pk).

Алгоритм построения дерева классификации CART

Вход: обучающий набор данных D, условие остановки расчета;

Выход: дерево решений CART;

Согласно набору обучающих данных, начиная с корневого узла, рекурсивно выполните следующие операции на каждом узле, чтобы построить бинарное дерево решений:

1. Пусть набор обучающих данных узла равен D, и вычислите индекс Джини существующих функций для этого набора данных. В это время для каждого признака A, для каждого возможного значения a, в соответствии с проверкой точки выборки A=a как «да» или «нет», D делится на две части D1 и D2, а затем индекс Джини вычислено. .

2. Среди всех возможных признаков А и всех их возможных точек сегментации а выбрать признак с наименьшим индексом Джини и соответствующую ему точку сегментации как наиболее характерную и оптимальную точку сегментации. В соответствии с оптимальными функциями и оптимальными точками сегментации из существующих узлов генерируются два подузла, а набор обучающих данных распределяется между двумя подузлами в соответствии с характеристиками.

3. Рекурсивно вызовите два подузла для двух подузлов и назначьте набор обучающих данных для двух подузлов в соответствии с функциями.

4. Создайте дерево решений CART. Алгоритм останавливает вычисления, если количество выборок в узле меньше порога или индекс Джини меньше порога, или больше нет признаков, доступных для классификации.

Приведите пример, чтобы помочь понять

Необработанные данные:

Процесс решения:

2. Дерево регрессии

Алгоритм построения дерева регрессии CART

Найдите оптимальную точку сегментации для каждой функции.Основой для поиска оптимальной точки сегментации является разделение набора на две части в соответствии с этим принципом сегментации и получение среднего значения меток двух частей в качестве прогнозируемого значения для расчета прогноза из двух частей Сумма квадратов ошибки между значением и истинным значением, которое может сделать эту ошибку наименьшей, является оптимальной переменной сегментации и оптимальной точкой сегментации.

Приведите пример, чтобы помочь понять

Необработанные данные:

При использовании библиотечной функции в sklearn максимальная глубина ограничена 3, а сгенерированное дерево регрессии CART выглядит следующим образом:

Детали процесса:

1. При выборе первой оптимальной переменной сегментации по принципу минимальной квадратичной ошибки выберите в качестве точки сегментации 6,5, что согласуется с корневым узлом дерева решений, полученным при вызове библиотеки sklearn, и значением квадратичной ошибки при на этот раз 19.11, то же самое, что и mse1.911 на приведенном выше рисунке.

2. Разделите набор

То же самое верно и для других узлов: когда значение квадрата ошибки достигает определенного порога, узел может быть остановлен и пересегментирован.

Использованная литература:

Большое спасибо за то, что так много больших парней, которые готовы поделиться, и стремятся быть маленькими новичками, которые любят делиться

1. Статистический метод обучения Li Hang

2. Сообщение в блоге брата хахахаnuggets.capable/post/684490…