Классические алгоритмы машинного обучения — деревья решений (1)

машинное обучение искусственный интеллект
Классические алгоритмы машинного обучения — деревья решений (1)

Мало знаний, большой вызов! Эта статья участвует в "Необходимые знания для программистов«Творческая деятельность.

один пример

Например, когда мы ищем работу, если мы хотим знать, является ли компания нашей любимой компанией, мы в первую очередь будем заботиться о зарплате, если она превышает нижнюю границу нашего собственного принятия или выше, чем зарплата, которую мы В настоящее время мы будем продолжать спрашивать, является ли это двойным отпуском и пятью страховками, Эти вопросы можно рассматривать как основу для вашего окончательного решения. По сути, мы строим дерево решений в процессе запроса.

  • Определение дерева решений
  • целевая функция
  • Переоснащение и обрезка
  • Преимущества и недостатки деревьев решений
  • интегрированное обучение

Недавно я хочу поговорить о деревьях решений.Поскольку контента по дизайну очень много, я буду уделять определенное время постоянному обновлению, и я буду продолжать обновлять и улучшать готовые статьи.Я надеюсь, что все это поддержат.

Древо решений

Мы классифицируем данные в соответствии с функцией данных как узел.Возможное значение функции является значением классификации.Каждая ветвь является ветвью, и каждая ветвь имеет узел функции или конечный узел.Если это конечный узел , то уже нельзя разделить.

  • Узлы могут понимать особенности
  • Собственные значения ребер
  • Конечные узлы могут понимать аннотации

Деревья решений можно использовать для регрессии или классификации, в основном для классификации. Деревья решений обучаются под наблюдением.

Целевая функция дерева решений

Если вы выбираете функции, то есть выберите эти функции для разделения, а также порядок до и после выбора этих функций.

Информационная энтропия

Один из наиболее распространенных способов измерения чистоты коллекции образцов.

H(X)=i=0npilogpiH(X) = - \sum_{i=0}^n p_i \log p_i

получение информации

Для набора, состоящего только из двух типов выборок данных, энтропия может быть выражена следующим образом, то есть, когда два типа выборок одинаковы, значение энтропии является наибольшим, то есть степень путаницы является наибольшей. .

H(X)=plogp(1p)log(1p)H(X) = -p \log p - (1-p)\log(1-p)