Анализ данных — модель дерева решений

Это 26-й день моего участия в августовском испытании обновлений. Узнайте подробности события:Испытание августовского обновления

Обсудите деревья решений со следующих аспектов

Что такое дерево решений - Концепция дерева решений

Непараметрическая модель — нет необходимости делать слишком много предположений о целевой функции и переменных — более гибкая в использовании — способная решать проблемы в более сложных сценариях
В общепринятом смысле дерево решений — это обобщение на основе прошлого опыта и вынесение соответствующих суждений о текущих событиях. Например, решите, брать ли с собой зонт, основываясь на опыте дождя в прошлом. Решите, идти ли сегодня играть или нет, в зависимости от погоды.

Как построить дерево решений

Дерево решений два основных шага:

Построить дерево решений — выбрать соответствующий атрибут в качестве узла Три вопроса: Какое свойство — корневой узел? Какие свойства - обратное соединение? Когда вы остановитесь и получите целевое значение?
- Как определить, какую функцию выбрать для каждого узла, каковы его общие методы и соответствующие им функции?
  ID3 и C4.5 — выбор функций на каждом этапе
  На основе информационной энтропии [с указанием неопределенности случайных величин] - Новые ветки, сгенерированные на узлах, уменьшают информационную энтропию - Проблема классификации + ID3 не может обрабатывать непрерывные значения + C4.5 может обрабатывать непрерывные значения, но намного сложнее, чем CART
- Информационная энтропия: H(X)=-Σpilogpi
  **pi: вероятность того, что выборка попадет на каждый листовой узел — Σpi = 1**
  n = 2 - p1, p2 оба равны 1/2 - информационная энтропия достигает максимального значения
  p1 = 1/ p1 = 0 - Информационная энтропия является минимальным значением - В модели дерева решений выберите соответствующие признаки в качестве узлов - Уменьшите информационную энтропию
  Метод CART - Коэффициент Джини [примесь Джини] вместо информационной энтропии - Джини (D) = 1 - Σpi² - Выберите функцию, которая уменьшает примесь Джини как узел
  Метод CART — поддерживает прогнозирование непрерывных значений (регрессия) — классификация + проблемы прогнозирования + обработка непрерывных значений — модель дерева решений sklearn по умолчанию в Python также использует метод CART для выбора ветвей
Обрезка - предварительная обрезка и постобрезка - предотвращение переобучения

Предварительная обрезка - обрезка при построении - узлы оцениваются во время построения - без повышения точности - без деления
Последующая обрезка — обрезка после создания дерева решений — конечные узлы подняты — небольшая разница в точности/улучшении после обрезки — обрезка

Общая проблема

Кратко опишите сходства и различия между методами ID3 и C4.5.
Когда ID3 выбирает функции - выберите функцию, которая максимизирует прирост информации g(D,A) в качестве узла - g(D,A)=H(D)-D(D|A)
H(D) - текущая информационная энтропия модели дерева решений; H(D|A) - информационная энтропия после создания нового узла - в качестве узла будет выбран признак с большим количеством ветвей - переобучение
C4.5 - Максимизация коэффициента приращения информации - g'(D,A) = g(D,A)/H'(D) = (H(D) - H(D|A))/H'(D )
H'(D) = -Σ|Di|/|D|log2|Di|/|D| - |Di|/|D| - выборка вКоличество узлов в каждой категории- Количество категорий увеличивается - H'(D) становится больше - Коэффициент приращения информации становится меньше - Избегайте выбора объектов со слишком большим количеством ветвей в качестве узлов
Кратко опишите преимущества и недостатки модели дерева решений.
непараметрическая модель
По сравнению с моделью линейной регрессии и моделью логистической регрессии —нет нуждыобразцы заранееПредположение- Может обрабатывать большесложныйизобразец- рассчитатьскоростьБыстрее -результатлегко объяснить - можноОдновременная обработкаПроблемы классификации и проблемы прогнозирования - ДаНечувствительность к отсутствующим значениям
Очень хорошая интерпретируемость. Нарисуйте ответвления. Наглядно просматривайте весь процесс выбора модели.
Слабый ученик - Метод настройки для оптимизации - Все еще склонен к переоснащению - Большая ошибка в конечном результате - Плохо работает на данных с сильной корреляцией функций
Каковы обычно используемые методы настройки для моделей дерева решений?
1. Управляйте такими параметрами, как глубина дерева и количество узлов, чтобы избежать переобучения.
2. Используйте перекрестную проверку для выбора подходящих параметров
3. С помощью метода интеграции моделей формируются более сложные модели на основе деревьев решений.