Начало работы с библиотекой xgboost

Адрес этой статьи на гитхабе:1-1 Вызовы базовой модели., который будет записывать содержание вашего собственного конкурса kaggle, добро пожаловать, чтобы начать и следить.

адрес команды:Начало работы с библиотекой xgboost

# 开启多行显示
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
# InteractiveShell.ast_node_interactivity = "last_expr"

# 显示图片
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

исследование данных

Форма данных в XGBoost может быть libsvm. Функция libsvm заключается в оптимизации разреженных функций. Возьмем пример:

1 101:1.2 102:0.03 
0 1:2.1 10001:300 10002:400
0 2:1.2 1212:21 7777:2

Каждая строка представляет собой образец, начало каждой строки равно 0, 1 представляет собой метку, а следующее представляет собой индекс функции: числовое значение, остальные не представлены равные 0.

Мы берем пример с оценки того, является ли гриб ядовитым или нет, чтобы провести последующее обучение. Набор данных взят из:архив.ICS.UCI.quote/beauty/machine-…, в котором у грибов 22 атрибута.После обработки этих исходных признаков получаются 126-мерные признаки и сохраняются в формате libsvm.На метке указано, ядовит ли гриб. из которых 6513 образцов используются для обучения и 1611 образцов используются для тестирования.

import xgboost as xgb
from sklearn.metrics import accuracy_score

DMatrix is a internal data structure that used by XGBoost which is optimized for both memory efficiency and training speed.

Источником данных для DMatrix может бытьstring/numpy array/scipy.sparse/pd.DataFrame, если это строка, путь к файлу libsvm или путь к двоичному файлу, доступному для чтения xgboost.

data_fold = "./data/"
dtrain = xgb.DMatrix(data_fold + "agaricus.txt.train")
dtest = xgb.DMatrix(data_fold + "agaricus.txt.test")

Проверить данные

(dtrain.num_col(),dtrain.num_row())
(dtest.num_col(),dtest.num_row())

(127, 6513)
(127, 1611)

обучение модели

Основные настройки параметров:

max_depth: максимальная глубина дерева. Значение по умолчанию — 6, диапазон значений: [1,∞]
eta: размер шага уменьшения, используемый в процессе обновления для предотвращения переобучения. eta делает процесс вычисления бустинга более консервативным за счет уменьшения веса функций. Значение по умолчанию — 0,3, диапазон значений: [0,1]
тихий: 0 означает распечатать информацию о времени выполнения, а 1 означает работать в тихом режиме без вывода информации о времени выполнения. Значение по умолчанию – 0.
цель: определить задачу обучения и соответствующую цель обучения, «бинарная: логистика» представляет проблему логистической регрессии бинарной классификации, а выходом является вероятность.

param = {'max_depth':2, 'eta':1, 'silent':0, 'objective':'binary:logistic' }

%time
# 设置boosting迭代计算次数
num_round = 2

bst = xgb.train(param, dtrain, num_round)

CPU times: user 0 ns, sys: 0 ns, total: 0 ns
Wall time: 65.6 µs

Здесь выход модели представляет собой значение вероятности, которое мы конвертируем в значение 0-1 перед вычислением точности.

train_preds = bst.predict(dtrain)
train_predictions = [round(value) for value in train_preds]
y_train = dtrain.get_label()
train_accuracy = accuracy_score(y_train, train_predictions)
print ("Train Accuary: %.2f%%" % (train_accuracy * 100.0))

Train Accuary: 97.77%

Наконец, мы смотрим на точность модели на тестовом наборе.

preds = bst.predict(dtest)
predictions = [round(value) for value in preds]
y_test = dtest.get_label()
test_accuracy = accuracy_score(y_test, predictions)
print("Test Accuracy: %.2f%%" % (test_accuracy * 100.0))

Test Accuracy: 97.83%

from matplotlib import pyplot
import graphviz
xgb.to_graphviz(bst, num_trees=0 )
pyplot.show()

svg

формат интерфейса scikit-learn

from xgboost import XGBClassifier
from sklearn.datasets import load_svmlight_file

my_workpath = './data/'
X_train,y_train = load_svmlight_file(my_workpath + 'agaricus.txt.train')
X_test,y_test = load_svmlight_file(my_workpath + 'agaricus.txt.test')

# 设置boosting迭代计算次数
num_round = 2

#bst = XGBClassifier(**params)
#bst = XGBClassifier()
bst =XGBClassifier(max_depth=2, learning_rate=1, n_estimators=num_round, 
                   silent=True, objective='binary:logistic')

bst.fit(X_train, y_train)

XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
       colsample_bytree=1, gamma=0, learning_rate=1, max_delta_step=0,
       max_depth=2, min_child_weight=1, missing=None, n_estimators=2,
       n_jobs=1, nthread=None, objective='binary:logistic', random_state=0,
       reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
       silent=True, subsample=1)

# 训练集上准确率
train_preds = bst.predict(X_train)
train_predictions = [round(value) for value in train_preds]

train_accuracy = accuracy_score(y_train, train_predictions)
print ("Train Accuary: %.2f%%" % (train_accuracy * 100.0))

Train Accuary: 97.77%

# 测试集上准确率
# make prediction
preds = bst.predict(X_test)
predictions = [round(value) for value in preds]

test_accuracy = accuracy_score(y_test, predictions)
print("Test Accuracy: %.2f%%" % (test_accuracy * 100.0))

Test Accuracy: 97.83%

Использование cv в scikit-learn

Следующая функция StratifiedKFold в основном используется для перекрестной проверки.

# 设置boosting迭代计算次数
num_round = 2
bst =XGBClassifier(max_depth=2, learning_rate=0.1,n_estimators=num_round, 
                   silent=True, objective='binary:logistic')

from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score

kfold = StratifiedKFold(n_splits=10, random_state=7)
results = cross_val_score(bst, X_train, y_train, cv=kfold)
print(results)
print("CV Accuracy: %.2f%% (%.2f%%)" % (results.mean()*100, results.std()*100))

[ 0.69478528  0.85276074  0.95398773  0.97235023  0.96006144  0.98771121
  1.          1.          0.96927803  0.97695853]
CV Accuracy: 93.68% (9.00%)

GridSearchcv поиск оптимального решения

from sklearn.model_selection import GridSearchCV

bst =XGBClassifier(max_depth=2, learning_rate=0.1, silent=True, objective='binary:logistic')

%time
param_grid = {
 'n_estimators': range(1, 51, 1)
}
clf = GridSearchCV(bst, param_grid, "accuracy",cv=5)
clf.fit(X_train, y_train)

CPU times: user 0 ns, sys: 0 ns, total: 0 ns
Wall time: 24.3 µs

clf.best_params_, clf.best_score_

({'n_estimators': 30}, 0.98418547520343924)

## 在测试集合上测试
#make prediction
preds = clf.predict(X_test)
predictions = [round(value) for value in preds]

test_accuracy = accuracy_score(y_test, predictions)
print("Test Accuracy of gridsearchcv: %.2f%%" % (test_accuracy * 100.0))

Test Accuracy of gridsearchcv: 97.27%

early-stop

Мы установили проверочный набор, и когда мы обнаружили, что частота ошибок в проверочном наборе увеличилась в процессе итерации, мы заранее остановили итерацию.

from sklearn.model_selection import train_test_split

seed = 7
test_size = 0.33
X_train_part, X_validate, y_train_part, y_validate= train_test_split(X_train, y_train, test_size=test_size,
    random_state=seed)

X_train_part.shape
X_validate.shape

(4363, 126)
(2150, 126)

# 设置boosting迭代计算次数
num_round = 100


bst =XGBClassifier(max_depth=2, learning_rate=0.1, n_estimators=num_round, silent=True, objective='binary:logistic')

eval_set =[(X_validate, y_validate)]
bst.fit(X_train_part, y_train_part, early_stopping_rounds=10, eval_metric="error",
    eval_set=eval_set, verbose=True)

[0] validation_0-error:0.048372
Will train until validation_0-error hasn't improved in 10 rounds.
[1] validation_0-error:0.042326
[2] validation_0-error:0.048372
[3] validation_0-error:0.042326
[4] validation_0-error:0.042326
[5] validation_0-error:0.042326
[6] validation_0-error:0.023256
[7] validation_0-error:0.042326
[8] validation_0-error:0.042326
[9] validation_0-error:0.023256
[10]    validation_0-error:0.006512
[11]    validation_0-error:0.017674
[12]    validation_0-error:0.017674
[13]    validation_0-error:0.017674
[14]    validation_0-error:0.017674
[15]    validation_0-error:0.017674
[16]    validation_0-error:0.017674
[17]    validation_0-error:0.017674
[18]    validation_0-error:0.024651
[19]    validation_0-error:0.020465
[20]    validation_0-error:0.020465
Stopping. Best iteration:
[10]    validation_0-error:0.006512

Мы можем визуализировать приведенную выше частоту ошибок, что нам удобно для более интуитивного наблюдения.

results = bst.evals_result()
#print(results)

epochs = len(results['validation_0']['error'])
x_axis = range(0, epochs)

# plot log loss
fig, ax = pyplot.subplots()
ax.plot(x_axis, results['validation_0']['error'], label='Test')
ax.legend()
pyplot.ylabel('Error')
pyplot.xlabel('Round')
pyplot.title('XGBoost Early Stop')
pyplot.show()

output_35_5.png-30.1kB

# 测试集上准确率
# make prediction
preds = bst.predict(X_test)
predictions = [round(value) for value in preds]

test_accuracy = accuracy_score(y_test, predictions)
print("Test Accuracy: %.2f%%" % (test_accuracy * 100.0))

Test Accuracy: 97.27%

кривая обучения

# 设置boosting迭代计算次数
num_round = 100

# 没有 eraly_stop
bst =XGBClassifier(max_depth=2, learning_rate=0.1, n_estimators=num_round, silent=True, objective='binary:logistic')

eval_set = [(X_train_part, y_train_part), (X_validate, y_validate)]
bst.fit(X_train_part, y_train_part, eval_metric=["error", "logloss"], eval_set=eval_set, verbose=True)

# retrieve performance metrics
results = bst.evals_result()
#print(results)


epochs = len(results['validation_0']['error'])
x_axis = range(0, epochs)

# plot log loss
fig, ax = pyplot.subplots()
ax.plot(x_axis, results['validation_0']['logloss'], label='Train')
ax.plot(x_axis, results['validation_1']['logloss'], label='Test')
ax.legend()
pyplot.ylabel('Log Loss')
pyplot.title('XGBoost Log Loss')
pyplot.show()

# plot classification error
fig, ax = pyplot.subplots()
ax.plot(x_axis, results['validation_0']['error'], label='Train')
ax.plot(x_axis, results['validation_1']['error'], label='Test')
ax.legend()
pyplot.ylabel('Classification Error')
pyplot.title('XGBoost Classification Error')
pyplot.show()

output_39_5.png-27.6kB

output_39_11.png-33kB

# make prediction
preds = bst.predict(X_test)
predictions = [round(value) for value in preds]

test_accuracy = accuracy_score(y_test, predictions)
print("Test Accuracy: %.2f%%" % (test_accuracy * 100.0))

Test Accuracy: 99.81%