Эмпирическая ошибка и переобучение
- общая концепция
ошибка: разница между фактическим прогнозируемым результатом учащегося и фактическим результатом выборки.
эмпирическая ошибка: ошибка обучаемого на тренировочном наборе
ошибка обобщения: ошибка на новом образце
переоснащение: Относится к явлению, когда модель, выбранная во время обучения, содержит слишком много параметров, поэтому модель хорошо предсказывает известные данные, но плохо предсказывает неизвестные данные.
недооснащение: означает, что общие свойства обучающих выборок изучены плохо
метод оценки
- отложить
определение: Разделите набор данных D на два взаимоисключающих набора, один из которых используется в качестве обучающего набора S, а другой — в качестве тестового набора T, а именно, После обучения модели на S используйте T для оценки ее ошибки теста как оценки ошибки обобщения.
Разные деления приведут к разным наборам для обучения/тестирования, и, соответственно, результаты оценки моделей будут разными. Поэтому результаты оценивания, полученные при однократном применении метода расстановки, часто не являются устойчивыми и надежными.При использовании метода расстановки, как правило, используют несколько случайных делений, проводят повторные тестовые оценки и берут среднее значение как результат оценки метода выкладки.
- перекрестная проверка
Во-первых, набор данных D делится на k взаимоисключающих подмножеств одинакового размера, а именноЗатем каждый раз объединение k - 1 подмножеств используется в качестве обучающего набора, а оставшееся подмножество используется в качестве тестового набора; таким образом, можно получить k наборов обучающих/тестовых наборов, так что k обучающих и тестирующих наборов может быть выполнено, и, наконец, k Среднее значение результатов теста. Обычно это называетсяk-кратная перекрестная проверка, значение k влияет на стабильность и достоверность результатов перекрестной проверки. Существует много способов разделить набор данных D на подмножества k. Чтобы уменьшить разницу, вносимую различными подразделениями выборки, k-кратная перекрестная проверка обычно использует разные подразделения для случайного повторения p раз, и окончательный результат оценки таков: :p-кратная k-кратная перекрестная проверкасреднее значение результатов.
- самопомощь
определение: Учитывая набор данных D, содержащий m выборок, мы сэмплируем его для создания набора данных.: случайным образом выберите семпл из D и скопируйте его в, а затем поместить выборку обратно в исходный набор данных D, чтобы эта выборка еще могла быть выбрана в следующей выборке; после повторения этого процесса m раз мы получим набор данных, содержащий m выборок, что является результатом выборки начальной загрузки.
показатели эффективности
- Частота ошибок и точность
определение: Частота ошибок — это отношение количества ошибочно классифицированных отсчетов к общему количеству отсчетов, а точность — отношение количества правильно классифицированных отсчетов к общему количеству отсчетов.
- Точность, отзыв и F1
Для задачи бинарной классификации примеры можно разделить на четыре случая: истинные примеры, ложноположительные примеры, истинно отрицательные примеры и ложноотрицательные примеры в соответствии с комбинацией их истинной категории и предсказанной учащимся категории.Пусть TP, FP, TN , и FN обозначают соответствующее им количество отсчетов, тогда, очевидно, TP + FP + TN + FN = общее количество отсчетов. Матрица путаницы результатов классификации представлена в таблице:
Точность P, полнота R и F1 определяются как:
- ОКР и АУК
Полное название ROC — кривая «рабочей характеристики приемника». Вертикальная ось кривой ROC — это «истинная частота случаев» (TPR), а горизонтальная ось — «ложноположительная частота» (FPR). Формулы для TPR и FPR следующие:
При сравнении учащихся, если кривая ROC одного ученика полностью «покрывается» кривой другого ученика, можно сделать вывод, что показатели последнего лучше, чем у первого; если кривые ROC двух учеников пересекаются , вообще сложно утверждать, что эти два лучше или хуже. В настоящее время, если необходимо провести сравнение, более разумным критерием является сравнение площади под кривой ROC, то есть AUC.
Предвзятость и дисперсия
Для тестовой выборки x пусть— метка x в наборе данных, y — реальная метка x, а f(x;D) — прогнозируемый результат модели f на x, изученной на обучающем наборе D. Взяв в качестве примера задачу регрессии, ожидаемый прогноз алгоритма обучения:
Дисперсия, полученная при использовании разных обучающих наборов с одинаковым количеством образцов, составляет:
Шум:
Разница между ожидаемым результатом и истинной меткой является отклонением, то есть:
ожидаемая ошибка обобщения
То есть ошибку обобщения можно разложить на сумму смещения, дисперсии и шума.
Смещение измеряет, насколько ожидаемый прогноз алгоритма обучения отклоняется от истинного результата.Сразу опишите подгоночную способность самого алгоритма обучения; дисперсия измеряет изменение эффективности обучения, вызванное изменениями в обучающей выборке того же размера,Немедленно фиксируйте влияние возмущений данных; шум выражает нижнюю границу ожидаемой ошибки обобщения, которую может достичь любой алгоритм обучения для текущей задачи,Сразу охарактеризуйте сложность самой учебной задачи
В общем, предвзятость и дисперсия находятся в конфликте, что называетсяДилемма смещения-дисперсии.
-
Когда обучение недостаточно, подгоночная способность учащегося недостаточно сильна, а нарушения данных обучения недостаточно, чтобы заставить учащегося значительно измениться, В это время предвзятость преобладает над частотой ошибок обобщения.
-
С углублением уровня обучения способность учащегося к подгонке постепенно повышается, учащийся может постепенно изучать нарушение данных обучения, а дисперсия постепенно доминирует над частотой ошибок обобщения.
-
После того, как степень обучения будет достаточной, способность учащегося к подгонке очень сильна, и небольшое нарушение обучающих данных приведет к значительным изменениям учащегося.Если учащийся изучит неглобальные характеристики обучающих данных, это произойдет годным