Оценка и выбор модели

Эмпирическая ошибка и переобучение

общая концепция

ошибка: разница между фактическим прогнозируемым результатом учащегося и фактическим результатом выборки.

эмпирическая ошибка: ошибка обучаемого на тренировочном наборе

ошибка обобщения: ошибка на новом образце

переоснащение: Относится к явлению, когда модель, выбранная во время обучения, содержит слишком много параметров, поэтому модель хорошо предсказывает известные данные, но плохо предсказывает неизвестные данные.

недооснащение: означает, что общие свойства обучающих выборок изучены плохо

метод оценки

отложить

определение: Разделите набор данных D на два взаимоисключающих набора, один из которых используется в качестве обучающего набора S, а другой — в качестве тестового набора T, а именно $D = S \cup T, S \cap T = \varnothing$ , После обучения модели на S используйте T для оценки ее ошибки теста как оценки ошибки обобщения.

Разные деления приведут к разным наборам для обучения/тестирования, и, соответственно, результаты оценки моделей будут разными. Поэтому результаты оценивания, полученные при однократном применении метода расстановки, часто не являются устойчивыми и надежными.При использовании метода расстановки, как правило, используют несколько случайных делений, проводят повторные тестовые оценки и берут среднее значение как результат оценки метода выкладки.

перекрестная проверка

Во-первых, набор данных D делится на k взаимоисключающих подмножеств одинакового размера, а именно $D = D_1 \cup D_2 \cup ... \cup D_k ，D_i \cap D_j = \varnothing (i\neq j ).$ Затем каждый раз объединение k - 1 подмножеств используется в качестве обучающего набора, а оставшееся подмножество используется в качестве тестового набора; таким образом, можно получить k наборов обучающих/тестовых наборов, так что k обучающих и тестирующих наборов может быть выполнено, и, наконец, k Среднее значение результатов теста. Обычно это называетсяk-кратная перекрестная проверка, значение k влияет на стабильность и достоверность результатов перекрестной проверки. Существует много способов разделить набор данных D на подмножества k. Чтобы уменьшить разницу, вносимую различными подразделениями выборки, k-кратная перекрестная проверка обычно использует разные подразделения для случайного повторения p раз, и окончательный результат оценки таков: :p-кратная k-кратная перекрестная проверкасреднее значение результатов.

самопомощь

определение: Учитывая набор данных D, содержащий m выборок, мы сэмплируем его для создания набора данных. $D^{'}$ : случайным образом выберите семпл из D и скопируйте его в $D^{'}$ , а затем поместить выборку обратно в исходный набор данных D, чтобы эта выборка еще могла быть выбрана в следующей выборке; после повторения этого процесса m раз мы получим набор данных, содержащий m выборок $D^{'}$ , что является результатом выборки начальной загрузки.

показатели эффективности

Частота ошибок и точность

определение: Частота ошибок — это отношение количества ошибочно классифицированных отсчетов к общему количеству отсчетов, а точность — отношение количества правильно классифицированных отсчетов к общему количеству отсчетов.

Точность, отзыв и F1

Для задачи бинарной классификации примеры можно разделить на четыре случая: истинные примеры, ложноположительные примеры, истинно отрицательные примеры и ложноотрицательные примеры в соответствии с комбинацией их истинной категории и предсказанной учащимся категории.Пусть TP, FP, TN , и FN обозначают соответствующее им количество отсчетов, тогда, очевидно, TP + FP + TN + FN = общее количество отсчетов. Матрица путаницы результатов классификации представлена в таблице:

Точность P, полнота R и F1 определяются как:

F1 = \frac{2 \times P \times R}{P + R} = \frac{2 \times TP}{样例总数 + TP - TN}

ОКР и АУК

Полное название ROC — кривая «рабочей характеристики приемника». Вертикальная ось кривой ROC — это «истинная частота случаев» (TPR), а горизонтальная ось — «ложноположительная частота» (FPR). Формулы для TPR и FPR следующие:

При сравнении учащихся, если кривая ROC одного ученика полностью «покрывается» кривой другого ученика, можно сделать вывод, что показатели последнего лучше, чем у первого; если кривые ROC двух учеников пересекаются , вообще сложно утверждать, что эти два лучше или хуже. В настоящее время, если необходимо провести сравнение, более разумным критерием является сравнение площади под кривой ROC, то есть AUC.

Предвзятость и дисперсия

Для тестовой выборки x пусть y_D — метка x в наборе данных, y — реальная метка x, а f(x;D) — прогнозируемый результат модели f на x, изученной на обучающем наборе D. Взяв в качестве примера задачу регрессии, ожидаемый прогноз алгоритма обучения:

Дисперсия, полученная при использовании разных обучающих наборов с одинаковым количеством образцов, составляет:

Шум:

Разница между ожидаемым результатом и истинной меткой является отклонением, то есть:

ожидаемая ошибка обобщения

E(f;D) = bias^2(x) + var(x) + \epsilon^2

То есть ошибку обобщения можно разложить на сумму смещения, дисперсии и шума.

Смещение измеряет, насколько ожидаемый прогноз алгоритма обучения отклоняется от истинного результата.Сразу опишите подгоночную способность самого алгоритма обучения; дисперсия измеряет изменение эффективности обучения, вызванное изменениями в обучающей выборке того же размера,Немедленно фиксируйте влияние возмущений данных; шум выражает нижнюю границу ожидаемой ошибки обобщения, которую может достичь любой алгоритм обучения для текущей задачи,Сразу охарактеризуйте сложность самой учебной задачи

В общем, предвзятость и дисперсия находятся в конфликте, что называетсяДилемма смещения-дисперсии.

Когда обучение недостаточно, подгоночная способность учащегося недостаточно сильна, а нарушения данных обучения недостаточно, чтобы заставить учащегося значительно измениться, В это время предвзятость преобладает над частотой ошибок обобщения.
С углублением уровня обучения способность учащегося к подгонке постепенно повышается, учащийся может постепенно изучать нарушение данных обучения, а дисперсия постепенно доминирует над частотой ошибок обобщения.
После того, как степень обучения будет достаточной, способность учащегося к подгонке очень сильна, и небольшое нарушение обучающих данных приведет к значительным изменениям учащегося.Если учащийся изучит неглобальные характеристики обучающих данных, это произойдет годным