Оценка и выбор модели

машинное обучение

Эмпирическая ошибка и переобучение

  • общая концепция

ошибка: разница между фактическим прогнозируемым результатом учащегося и фактическим результатом выборки.

эмпирическая ошибка: ошибка обучаемого на тренировочном наборе

ошибка обобщения: ошибка на новом образце

переоснащение: Относится к явлению, когда модель, выбранная во время обучения, содержит слишком много параметров, поэтому модель хорошо предсказывает известные данные, но плохо предсказывает неизвестные данные.

недооснащение: означает, что общие свойства обучающих выборок изучены плохо

метод оценки

  • отложить

определение: Разделите набор данных D на два взаимоисключающих набора, один из которых используется в качестве обучающего набора S, а другой — в качестве тестового набора T, а именноD = S \cup T, S \cap T = \varnothing, После обучения модели на S используйте T для оценки ее ошибки теста как оценки ошибки обобщения.

Разные деления приведут к разным наборам для обучения/тестирования, и, соответственно, результаты оценки моделей будут разными. Поэтому результаты оценивания, полученные при однократном применении метода расстановки, часто не являются устойчивыми и надежными.При использовании метода расстановки, как правило, используют несколько случайных делений, проводят повторные тестовые оценки и берут среднее значение как результат оценки метода выкладки.

  • перекрестная проверка

Во-первых, набор данных D делится на k взаимоисключающих подмножеств одинакового размера, а именноD = D_1 \cup D_2 \cup ... \cup D_k ,D_i \cap D_j = \varnothing (i\neq j ).Затем каждый раз объединение k - 1 подмножеств используется в качестве обучающего набора, а оставшееся подмножество используется в качестве тестового набора; таким образом, можно получить k наборов обучающих/тестовых наборов, так что k обучающих и тестирующих наборов может быть выполнено, и, наконец, k Среднее значение результатов теста. Обычно это называетсяk-кратная перекрестная проверка, значение k влияет на стабильность и достоверность результатов перекрестной проверки. Существует много способов разделить набор данных D на подмножества k. Чтобы уменьшить разницу, вносимую различными подразделениями выборки, k-кратная перекрестная проверка обычно использует разные подразделения для случайного повторения p раз, и окончательный результат оценки таков: :p-кратная k-кратная перекрестная проверкасреднее значение результатов.

图一:10折交叉验证

  • самопомощь

определение: Учитывая набор данных D, содержащий m выборок, мы сэмплируем его для создания набора данных.D^{'}: случайным образом выберите семпл из D и скопируйте его вD^{'}, а затем поместить выборку обратно в исходный набор данных D, чтобы эта выборка еще могла быть выбрана в следующей выборке; после повторения этого процесса m раз мы получим набор данных, содержащий m выборокD^{'}, что является результатом выборки начальной загрузки.

показатели эффективности

  • Частота ошибок и точность

определение: Частота ошибок — это отношение количества ошибочно классифицированных отсчетов к общему количеству отсчетов, а точность — отношение количества правильно классифицированных отсчетов к общему количеству отсчетов.

  • Точность, отзыв и F1

Для задачи бинарной классификации примеры можно разделить на четыре случая: истинные примеры, ложноположительные примеры, истинно отрицательные примеры и ложноотрицательные примеры в соответствии с комбинацией их истинной категории и предсказанной учащимся категории.Пусть TP, FP, TN , и FN обозначают соответствующее им количество отсчетов, тогда, очевидно, TP + FP + TN + FN = общее количество отсчетов. Матрица путаницы результатов классификации представлена ​​в таблице:

图二:分类结果混淆矩阵

Точность P, полнота R и F1 определяются как:

P = \frac{TP}{TP + FP}
R = \frac{TP}{TP + FN}
F1 = \frac{2 \times P \times R}{P + R} = \frac{2 \times TP}{样例总数 + TP - TN}
  • ОКР и АУК

Полное название ROC — кривая «рабочей характеристики приемника». Вертикальная ось кривой ROC — это «истинная частота случаев» (TPR), а горизонтальная ось — «ложноположительная частота» (FPR). Формулы для TPR и FPR следующие:

TPR = \frac{TP}{TP + FN}
FPR = \frac{FP}{TN + FP}

При сравнении учащихся, если кривая ROC одного ученика полностью «покрывается» кривой другого ученика, можно сделать вывод, что показатели последнего лучше, чем у первого; если кривые ROC двух учеников пересекаются , вообще сложно утверждать, что эти два лучше или хуже. В настоящее время, если необходимо провести сравнение, более разумным критерием является сравнение площади под кривой ROC, то есть AUC.

图三:ROC曲线与AUC示意图

Предвзятость и дисперсия

Для тестовой выборки x пустьy_D— метка x в наборе данных, y — реальная метка x, а f(x;D) — прогнозируемый результат модели f на x, изученной на обучающем наборе D. Взяв в качестве примера задачу регрессии, ожидаемый прогноз алгоритма обучения:

\bar f(x) = E_D[f(x;D)]

Дисперсия, полученная при использовании разных обучающих наборов с одинаковым количеством образцов, составляет:

var(x) = E_D[{(f(x;D) - \bar f(x))}^2]

Шум:

\epsilon^2 = E_D[{(y_D - y)}^2]

Разница между ожидаемым результатом и истинной меткой является отклонением, то есть:

bias^2(x) = {(\bar f(x) - y)}^2

ожидаемая ошибка обобщения

E(f;D) = bias^2(x) + var(x) + \epsilon^2

То есть ошибку обобщения можно разложить на сумму смещения, дисперсии и шума.

Смещение измеряет, насколько ожидаемый прогноз алгоритма обучения отклоняется от истинного результата.Сразу опишите подгоночную способность самого алгоритма обучения; дисперсия измеряет изменение эффективности обучения, вызванное изменениями в обучающей выборке того же размера,Немедленно фиксируйте влияние возмущений данных; шум выражает нижнюю границу ожидаемой ошибки обобщения, которую может достичь любой алгоритм обучения для текущей задачи,Сразу охарактеризуйте сложность самой учебной задачи

В общем, предвзятость и дисперсия находятся в конфликте, что называетсяДилемма смещения-дисперсии.

  • Когда обучение недостаточно, подгоночная способность учащегося недостаточно сильна, а нарушения данных обучения недостаточно, чтобы заставить учащегося значительно измениться, В это время предвзятость преобладает над частотой ошибок обобщения.

  • С углублением уровня обучения способность учащегося к подгонке постепенно повышается, учащийся может постепенно изучать нарушение данных обучения, а дисперсия постепенно доминирует над частотой ошибок обобщения.

  • После того, как степень обучения будет достаточной, способность учащегося к подгонке очень сильна, и небольшое нарушение обучающих данных приведет к значительным изменениям учащегося.Если учащийся изучит неглобальные характеристики обучающих данных, это произойдет годным

图四:泛化误差与偏差、方差的关系示意图