Эта статья возникла из личного публичного аккаунта:TechFlow, оригинальность это не просто, прошу внимания
СегодняТемы машинного обученияВ 31-й статье продолжим разговор о модели GBDT.
В прошлой статье мы узнали принцип модели GBDT в задачах регрессии. Самая большая особенность GBDT заключается в том, что уменьшение функции потерь достигается не путем корректировки существующих параметров в модели, а если оно аппроксимируется путем обучения нового дерева решений CART. То есть к самой низкой точке функции потерь приближаются путем увеличения параметров, а не их корректировки.
Если вы не очень хорошо понимаете эту часть, вы можете просмотреть предыдущий контент по ссылке ниже:
Функция потерь логистической регрессии
Прежде чем мы начнем объяснение и вывод принципа модели GBDT, давайте рассмотримлогистическая регрессиясоответствующие формулы и понятия.
Во-первых, давайте напишем функцию прогнозирования логистической регрессии:
Изображение нарисовано так, гдеПредставляет вероятность того, что модель предсказывает принадлежность выборки x к категории 1.
В задаче бинарной классификации есть только два класса, 0 и 1, и суммы вероятностей двух классов равны только 1. Таким образом, мы можем получить.
Мы хотим, чтобы модель была такой, что при y=0как можно больше, иначеКак можно больше, мы используем экспоненциальную форму, чтобы синтезировать их и записать функцию потерь L.
Это значение связано с показателем степени и его не очень удобно вычислять, поэтому мы будемлогарифмдля упрощения. После логарифмирования обеих частей уравнения получаем:
Это источник функции потерь логистической регрессии.
Бинарная классификация GBDT
Принцип применения модели GBDT к сцене бинарной классификации фактически такой же, как и у логистической регрессии, но в логистической регрессииявляется линейной функцией, а в GBDT,Являетсяаддитивная модель.
В проблеме регрессии GBDT,Это окончательный результат вывода GBDT, и в задаче с двумя категориями нам также нужно добавить к этому результату сигмоидальную функцию. Мы делаем вышеперечисленноеза, поэтому модель может быть выражена как:
Вносим эту формулу в функцию потерь логистической регрессии, можем получить:
Рассчитываем функцию потерьотрицательный градиент, то есть вычислитьправильноЧастная производная от :
Этот отрицательный градиент - это то, что мы часто говоримостаточный, результат этого остатка очень похож на наш предыдущий вывод в задаче регрессии. Он представляет собой разницу вероятностей между прогнозируемой вероятностью и истинной вероятностью, и этот остаток является целью обучения следующего дерева CART.
тренировочный процесс
Давайте разберем весь процесс обучения модели и подключим все детали.
Прежде всего, давайте уточним несколько параметров, M представляет собой количество деревьев решений.представляет собой целое после m-го раунда обучения,То есть конечная выходная модель GBDT.
-
инициализация
Сначала мы создаем первое дерево регрессии, т.е., в задаче бинарной классификации это априорная информация, поэтому:
, p1 означаетДоля класса 1 в выборке
-
повторять
I. Для деревьев регрессии со 2-го по m-е нам нужно вычислить цель обучения каждого дерева, то есть невязку предыдущих результатов:
ii.Для текущего m-го поддерева нам нужно пройти его возможные точки сегментации и пороги, чтобы найти параметры, соответствующие оптимальному прогнозируемому значению c, чтобы максимально приблизить невязку.Давайте напишем эту формулу:
здесьОтносится к набору предсказанных значений листовых узлов во всех методах деления m-го поддерева, то естьВозможное предсказанное значение m-го дерева регрессии. где j находится в диапазоне 1,2,3...J.
Далее мы обновляем, где I — функция, если выборка попадает вНа узле тогда I=1, иначе I=0.
-
у нас есть
-
Вероятность того, что класс выборки равен 1, равна:
Проблема мультиклассификации
Проблема бинарной классификации решена, мультиклассификация не представляет сложности, по сути, это простое расширение бинарной классификации.
Предположим, что количество категорий выборки равно k, тогда нам нужноk разных наборов деревьевчтобы соответствовать вероятности каждого класса. Запишем формулу вероятности класса q:
Функция потерь функции softmax:, хотя это значение суммирования из формулы, но для многоклассовых задач,Будет только одна категория 1, остальные равны 0, поэтому только один элемент не равен 0, мы предполагаем, что этот элемент равен q. Найдем его отрицательный градиент, подставив:
Можно видеть, что в задаче множественной классификации k наборов деревьев также представляют собой разность между подобранной меткой реальной выборки и прогнозируемой вероятностью, что по существу совпадает с задачей двух классов.
Суммировать
На этом этапе мы также представили принцип GBDT в сценариях классификации. По сути, вся статья задвинута вниз, и процесс, и результат аналогичны задаче регрессии. Просто в задаче классификации используется сигмоидальная функция, что немного усложняет процесс вычисления частных производных и невязок, а в других нет существенной разницы.
Из сегодняшней статьи мы также видим, что модель GBDTШирокий спектр приложений, которую можно применять к задачам регрессии, бинарной классификации и множественной классификации, и это очень мощная модель. По этой причине он был очень популярен до появления глубокого обучения, и на его основе было создано множество улучшенных версий и приложений. Такие как XGboost, GBDT+LR и так далее. Поэтому во время собеседования часто задают вопросы.Если есть студенты, которые готовятся к собеседованию, рекомендуется досконально понять принцип.
Сегодняшняя статья здесь, если вам понравилась эта статья, пожалуйста, приходите на волнукачество три, поддержите меня (Подписывайтесь, делайте репосты, лайкайте).