Команда Стэнфорда Нг предлагает NGBoost: повышение естественного градиента для вероятностного прогнозирования

машинное обучение

В этой статье исследователи из Стэнфорда предлагают метод повышения градиента NGBoost для решения технических трудностей в общем вероятностном прогнозировании, которые неразрешимы с помощью существующих методов повышения градиента.

из arXiv,Авторы: Тони Дуан, Ананд Авати и др., составлено Heart of the Machine, участие: Panda.


Natural Gradient Boosting (NGBoost/Natural Gradient Boosting) — это алгоритм, который в общем случае привносит вероятностную прогностическую силу в повышение градиента. Прогностические оценки неопределенности имеют решающее значение во многих приложениях, таких как прогнозирование погоды и медицины. Естественным способом количественной оценки этой неопределенности является вероятностное прогнозирование, которое выводит полное распределение вероятностей по всему пространству результатов. Машины повышения градиента добились широкого успеха в задачах прогнозирования структурированных входных данных, но в настоящее время не существует простой схемы повышения вероятностного прогнозирования действительных выходных данных. NGBoost — это метод повышения градиента, который использует Natural Gradient для решения технических проблем в общем вероятностном прогнозировании, с которыми трудно справиться с помощью существующих методов повышения градиента. Этот недавно предложенный метод является модульным, с гибким выбором базовых учащихся, распределения вероятностей и критериев оценки. Исследователи проводят эксперименты с наборами данных множественной регрессии, и результаты показывают, что NGBoost конкурентоспособен как в оценке неопределенности, так и в традиционных метриках.

Ссылка: https://arxiv.org/pdf/1910.03225v1.pdf

введение

Многие реальные задачи контролируемого машинного обучения имеют табличные характеристики и реальные цели. Но модели редко должны быть абсолютно уверены в своих прогнозах. В таких задачах важна оценка неопределенности в результатах прогнозирования, особенно когда результаты прогнозирования напрямую связаны с автоматизированным принятием решений, поскольку оценки вероятностной неопределенности очень полезны при определении отступлений от действий человека в важных рабочих процессах.

Метеорология использовала вероятностное прогнозирование как предпочтительный метод прогнозирования погоды. В этом параметре модель выводит распределение вероятностей по всему выходному пространству на основе наблюдаемых признаков. Целью обучения модели является максимальное повышение точности за счет оптимизации правил оценки, таких как оценка максимального правдоподобия (MLE) или более надежная непрерывная градуированная оценка вероятности (CRPS), тем самым достигается калибровка. Это приводит к калиброванной оценке неопределенности.

А Gradient Boosting Machines (GBM) — это семейство высокомодульных методов, которые хорошо работают со структурированными входными данными, даже когда наборы данных относительно малы. Однако эта вероятностная интерпретация малопригодна, если предполагается, что дисперсия постоянна. Прогнозируемое распределение должно иметь как минимум две степени свободы (два параметра), чтобы эффективно отражать величину и неопределенность прогнозируемых результатов. Именно эта проблема одновременного повышения нескольких параметров базового ученика затрудняет обработку вероятностных прогнозов GBM, и NGBoost может решить эту проблему, используя естественные градиенты.

В этой статье представлен Natural Gradient Boosting, модульный алгоритм повышения вероятностного прогнозирования, который использует естественные градиенты для гибкой интеграции различных модулей:

  • Базовые обучающие элементы (например, деревья решений)

  • Параметрическое распределение вероятностей

  • Правила подсчета очков (MLE, CRPS и т. д.)

NGBoost:Повышение естественного градиента

Алгоритм NGBoost — это метод обучения с учителем для вероятностного прогнозирования.Способ достижения повышения состоит в том, чтобы предсказать параметры условного распределения вероятностей в виде функции. Эксперименты исследователей здесь сосредоточены на реальных выходных данных, но они также говорят, что все методы могут использоваться для прогнозирования в других режимах, таких как классификация и прогнозирование времени события.

Алгоритм состоит из трех модульных компонентов, которые можно предварительно выбрать в конфигурации:
  • Базовый ученик (ж)

  • Параметрическое распределение вероятностей (P_θ)

  • Соответствующее правило(я) подсчета очков

Прогноз y|x для нового входа x выполняется в виде условного распределения P_θ, параметр которого θ получается комбинацией суперпозиции M базовых выходных данных учащегося (соответствующих M этапам повышения градиента) и начального распределения θ(0 ). Обратите внимание, что θ может быть вектором параметров (не ограничиваясь скалярными значениями), которые полностью определяют предсказание вероятности y|x. Чтобы получить прогнозируемый параметр результата θ для некоторого x, каждый базовый учащийся f принимает x в качестве входных данных. Прогнозируемый результат масштабируется с использованием коэффициента масштабирования для конкретного этапа ρ и общей скорости обучения η.

Модель изучается последовательно, при этом на каждом этапе имеется набор базовых учащихся f и коэффициент масштабирования ρ. Алгоритм обучения сначала оценивает общее начальное распределение θ(0) таким образом, чтобы минимизировать сумму правила подсчета очков S по переменным отклика всех обучающих выборок, по существу подбирая предельное распределение y. Это становится начальным параметром предсказания θ(0) для всех выборок.

На каждой итерации m для каждой выборки i алгоритм вычисляет естественный градиент g_i правила подсчета очков S на основе прогнозируемых параметров результата для этой выборки до этого этапа. Обратите внимание, что g_i и размерность согласуются с θ. Набор базовых учеников f для этой итерации будет приспособлен для предсказания соответствующего компонента естественного градиента каждой выборки x_i.

Результатом подобранного базового учащегося является проекция естественного градиента на диапазон базового класса учащегося. Спроецированные градиенты затем масштабируются с помощью коэффициента масштабирования ρ, поскольку локальные аппроксимации могут дать сбой вскоре после выхода из текущих позиций параметров. Критерием выбора коэффициента масштабирования является минимизация общей потери правила оценки наземной истины вдоль проецируемого направления градиента в форме линейного поиска.
После определения коэффициента масштабирования обновляются параметры предсказания для каждой выборки.

эксперимент

Набор данных, используемый для экспериментов, взят из репозитория машинного обучения UCI и соответствует протоколу, первоначально предложенному Эрнандес-Лобато и Адамсом (2015). 10% всех наборов данных были случайным образом выбраны в качестве тестового набора. Из остальных 90 % сначала оставьте 20 % в качестве проверочного набора, чтобы выбрать M (количество ступеней повышения), которое дает наилучшую логарифмическую вероятность, а затем перестройте этот 90-процентный ансамбль, используя выбранное M . Затем используйте переоборудованную модель, чтобы сделать прогнозы на 10% тестовом наборе. Весь процесс повторялся 20 раз для всех наборов данных, за исключением наборов данных Protein и Year, которые повторялись 5 и 1 раз соответственно.

Таблица 1:Сравнение производительности на наборе данных UCI регрессионного эталона.Результаты для отсева MC и Deep Ensembles взяты из Gal and Ghahramani (2016) и Lakshminarayanan et al. (2017) соответственно.NGBoost конкурентоспособен как на RMSE, так и на NLL, особенно на небольших наборах данных.