Некоторые мысли о SVM, LR и GBDT

LR

LR в принципе можно разделить на линейные модели, а сама модель не может полностью решать нелинейные задачи. Однако в процессе использования LR нам часто приходится разрежать данные, например, в режиме one-hot. Эта операция увеличит размерность векторного пространства признаков, сделав задачу линейно разделимой. В наших данных промышленного уровня размеры признаков входной модели часто превышают один миллион, десятки миллионов или даже сотни миллионов, многие из которых вызваны разреженностью этих признаков.

SVM

SVM сама по себе является линейной моделью, и ее нелинейная подгоночная способность связана с функцией ядра. Когда функция ядра SVM является линейным ядром, ее производительность очень похожа на LR, и она обладает большей способностью к обобщению, чем LR, для небольшого числа наборов данных, что вызвано опорными векторами. Когда SVM принимает некоторые нелинейные ядра, такие как радиальный базис или ядро Гаусса, его нелинейная подгоночная способность лучше. На небольших и средних наборах данных SVM имеет сильный классификационный эффект, по сравнению с GBDT, он может лучше контролировать переобучение, что вызвано его принципом. Его также можно использовать с многомерными разреженными наборами данных, что является недостатком GBDT. Однако очевидны и его недостатки: SVM очень чувствительна к пропущенным значениям, требует операций стандартизации (нормализации) и имеет низкую эффективность по скорости при большом масштабе данных (эффективность по скорости связана с количеством функций ядра и опорных векторов).

GBDT

GBDT — это нелинейная модель, которая получена из дерева решений и может соответствовать различным нелинейным задачам по своей природе. На GBDT относительно меньше влияет размер данных, потому что сложность GBDT меняется вместе с данными. Сложные данные могут генерировать сложные деревья, в то время как простые данные могут генерировать простые деревья Простота и сложность данных здесь относятся к сложности их классификации. Однако его недостатки также относительно очевидны, его легко переобучить, а поскольку он работает со столбцами, GBDT очень плохо влияет на многомерные разреженные векторы. Имея миллионы измерений данных, GBDT не будет знать, с чего начать. Конечно, именно потому, что он работает со столбцами, поэтому он не чувствителен к отсутствующим значениям, В худшем случае столбец отбрасывается, что не приведет к тому, что чрезмерный локальный шум повлияет на глобальную ситуацию. Из-за своей операции ветвления GBDT легко использовать как для дискретных данных, так и для непрерывных данных, если найдена разумная функция потерь.Дискретные данные здесь относятся к данным перед разреженными, такими как номер класса, который не является линейным, как LR, Модель эффективна только для многомерных разреженных линейно разделимых данных.