TensorFlow Decision Forests
, представляет собой библиотеку программного обеспечения TensorFlow с открытым исходным кодом на основе Keras. Он направлен на внедрение некоторых передовых алгоритмов леса принятия решений (например, Random Forest, GBDT, LambdaMart) в TensorFlow простым в использовании способом. Леса решений уже давно являются передовыми алгоритмами машинного обучения для моделирования табличных данных. Леса принятия решений обеспечивают отличную производительность во многих приложениях машинного обучения, таких как обучение ранжированию.
Леса классификации и принятия решений
Что такое классификация?
- табличный набор данных
- который содержит образцы (строки) и атрибуты (столбцы)
- Некоторые свойства являются категориальными свойствами, некоторые свойства являются числовыми свойствами.
Классификация: используйте модель для прогнозирования категориальных атрибутов на основе других атрибутов.
Почему важна классификация?
- Доступ к труднодоступным или дорогим данным
Что такое модель?
Модель: выберите (или обучите) модель, которая лучше всего соответствует имеющимся наблюдениям (так называемым «помеченным образцам»).
Древо решений
- общая модель
- Набор вопросов, организованных иерархически в виде древовидной структуры (отмечены зеленым цветом, также известные как узлы принятия решений)
- Листовые узлы (отмечены желтым) содержат прогнозы
- Как правило, вопросы относятся к одному атрибуту (с выравниванием по оси), а ответы являются бинарными (бинарные деревья).
обучение дереву решений
Использование жадной стратегии, рост вопроса за вопросом для максимизации локальных функций оценки (например, прирост информации, среднеквадратическая ошибка).
Продолжайте рекурсивно, чтобы получить дерево решений:
лес решений
- Суммируйте прогнозы нескольких деревьев решений
- Часто содержит сотни или тысячи деревьев решений
- Прогнозы, как правило, более точны (но медленнее), чем одно дерево решений.
- Для совместного обучения деревьев решений можно использовать разные алгоритмы (например, случайные леса, деревья с градиентным усилением, AdaBoost).
Библиотека леса решений TensorFlow
- TensorFlow предоставляет ряд алгоритмов принятия решений.
- легко использовать
- Доступно с помощью набора инструментов TensorFlow
- Поддержка расширенных настроек, таких как комбинация леса решений и нейронной сети.
Основной код TF-DF:Визуализация модели:В сводке отображается различная информация о модели:Используйте с другими инструментами тензорного потока:
Когда использовать леса решений?
- Работа с табличными данными
- Простота: не нужно слишком много настраивать
- интерпретируемость
- Скорость: включая скорость обучения и скорость вывода