Полное название дерева CART — дерево классификации и регрессии, которое можно использовать для классификации или регрессии. Независимо от классификации или регрессии, центральная идея состоит в том, чтобы найти оптимальную переменную сегментации и оптимальную точку сегментации, но в задаче классификации в качестве основы используется минимизация индекса Джини, а в задаче регрессии минимизация квадрата в качестве критерия используется ошибка. Далее мы проиллюстрируем два типа деревьев примерами.
1. Дерево классификации
Предварительные знания: коэффициент Джини
Коэффициент Джини, также известный как примесь Джини, показывает вероятность того, что случайно выбранный образец в наборе образцов будет неправильно классифицирован. Чем меньше значение, тем ниже вероятность того, что он будет неправильно классифицирован. Индекс Джини = вероятность того, что он будет выбран * вероятность того, что будучи неправильно классифицированным, в следующей формуле pk представляет вероятность того, что выбранная выборка принадлежит к категории k, тогда вероятность того, что эта выборка будет неправильно классифицирована, равна (1-pk).
Алгоритм построения дерева классификации CART
Вход: обучающий набор данных D, условие остановки расчета;
Выход: дерево решений CART;
Согласно набору обучающих данных, начиная с корневого узла, рекурсивно выполните следующие операции на каждом узле, чтобы построить бинарное дерево решений:
1. Пусть набор обучающих данных узла равен D, и вычислите индекс Джини существующих функций для этого набора данных. В это время для каждого признака A, для каждого возможного значения a, в соответствии с проверкой точки выборки A=a как «да» или «нет», D делится на две части D1 и D2, а затем индекс Джини вычислено. .
2. Среди всех возможных признаков А и всех их возможных точек сегментации а выбрать признак с наименьшим индексом Джини и соответствующую ему точку сегментации как наиболее характерную и оптимальную точку сегментации. В соответствии с оптимальными функциями и оптимальными точками сегментации из существующих узлов генерируются два подузла, а набор обучающих данных распределяется между двумя подузлами в соответствии с характеристиками.
3. Рекурсивно вызовите два подузла для двух подузлов и назначьте набор обучающих данных для двух подузлов в соответствии с функциями.
4. Создайте дерево решений CART. Алгоритм останавливает вычисления, если количество выборок в узле меньше порога или индекс Джини меньше порога, или больше нет признаков, доступных для классификации.
Приведите пример, чтобы помочь понять
Необработанные данные:
Процесс решения: 2. Дерево регрессииНайдите оптимальную точку сегментации для каждой функции.Основой для поиска оптимальной точки сегментации является разделение набора на две части в соответствии с этим принципом сегментации и получение среднего значения меток двух частей в качестве прогнозируемого значения для расчета прогноза из двух частей Сумма квадратов ошибки между значением и истинным значением, которое может сделать эту ошибку наименьшей, является оптимальной переменной сегментации и оптимальной точкой сегментации.Алгоритм построения дерева регрессии CART
Приведите пример, чтобы помочь понять
Необработанные данные:
При использовании библиотечной функции в sklearn максимальная глубина ограничена 3, а сгенерированное дерево регрессии CART выглядит следующим образом:
Детали процесса:1. При выборе первой оптимальной переменной сегментации по принципу минимальной квадратичной ошибки выберите в качестве точки сегментации 6,5, что согласуется с корневым узлом дерева решений, полученным при вызове библиотеки sklearn, и значением квадратичной ошибки при на этот раз 19.11, то же самое, что и mse1.911 на приведенном выше рисунке.
2. Разделите наборИспользованная литература:
Большое спасибо за то, что так много больших парней, которые готовы поделиться, и стремятся быть маленькими новичками, которые любят делиться
1. Статистический метод обучения Li Hang
2. Сообщение в блоге брата хахахаnuggets.capable/post/684490…