Машинное обучение — сводка стратегии проверки [перекрестная проверка, метод набора проверок]

машинное обучение

Разделение набора данных

В моделях обучения машинному обучению мы обычно делим данные натренировочный набор, тестовый набор, и иногданабор проверки. Тренировочный набор используется дляОбучите модель,набор проверкииспользовал кГиперпараметры для обучения модели, окончательный тестовый набор используется дляОцените, насколько хорошо модель предсказывает.

Оценка ошибки

Ключом к проверке является измерение ошибки.среднеквадратическая ошибкаиСредняя квадратическая ошибка, соответственно, проходят перекрестную проверкудисперсияисреднеквадратичное отклонение.


Политика проверки

Хотя в целом существует только три метода классификации данных, как их использовать после классификации, все еще остается проблемой.Политика проверки, обычно используются следующие методы:

Подход с набором валидации

Самый простой способ — фиксированно разделить весь набор данных на обучающую и тестовую выборки.

недостаток

  1. Выбор конечной модели и параметров будет сильно зависеть от вашего деления обучающей выборки и тестовой выборки, если деление хорошее, то ошибка будет маленькая, а если деление плохое, то ошибка будет большая.image.png

  2. Этот метод использует только часть данных для обучения модели, а это означает, что мы не можем в полной мере использовать имеющиеся данные и подходит для больших объемов данных (не имеет значения, если они будут потрачены впустую).

Перекрестная проверка

На основании этого кто-то предложилМетод перекрестной проверки. Перекрестная проверка, как следует из названия, заключается в повторном использовании данных, разделении полученных выборочных данных и объединении их в несколько наборов различных обучающих наборов и тестовых наборов. так называемый "Пересекать», то есть образцы в обучающем наборе могут стать образцами в тестовом наборе в следующий раз.

В настоящее время это наиболее распространенная стратегия проверки.В соответствии с различными методами сегментации перекрестная проверка делится на следующие три типа:

простая перекрестная проверка

Случайным образом разделите выборочные данные на две части (например: 70% обучающий набор, 30% тестовый набор), затем используйте обучающий набор для обучения модели и проверьте модель и параметры на тестовом наборе. Затем перетасуйте образцы, повторно выберите обучающий и тестовый наборы и продолжите обучение данных и тестирование модели. Наконец, мы выбираем функцию потерь для оценки оптимальной модели и параметров. Видно, что это самый простой вид кросс-валидации.

⭐️КСвернуть перекрестную проверку(K-кратная перекрестная проверка)

Это обновленная версия простой перекрестной проверки.К-кратная перекрестная проверка случайным образом разделит выборочные данные на части K. Каждый раз в качестве обучающего набора случайным образом выбираются части K-1, а оставшаяся 1 часть используется как тестовый набор. Когда этот раунд завершен, копии K-1 выбираются случайным образом для обучающих данных. После нескольких раундов (менее K) функция потерь выбирается для оценки оптимальной модели и параметров.

Этот метод в настоящее время является наиболее распространенным.

перекрестная проверка без исключения(Перекрестная проверка с исключением одного,LOOCV)

Это частный случай второго случая, только одни данные используются в качестве тестового набора, остальные данные используются в качестве обучающего набора, и этот шаг повторяется N раз (N — количество данных в наборе данных).

image.png

Начальная загрузка

Существуют M образцы (M маленькие), в которых каждый M образцы случайным образом собирают в образце, помещают в учебный набор, после образца обратно в образец. Повторная коллекция M раз для получения тренировочного набора, состоящего из M образцов. Конечно, это, вероятно, имеет образцы в дублирующих данных образца. В то же время мы не были отобраны с примерной коллекцией для тестирования. Такое сопровождение перекрестной проверки. Поскольку у нас есть дубликат набор данных тренировок, которые изменяют распределение данных, и поэтому результаты обучения будут предвзятыми оценками, поэтому этот метод не очень распространен, если не очень небольшое количество данных, таких как менее 20 Отказ

Когда использовать какой метод?

Перекрестная проверка используется, когда данных недостаточно. Как правило, перекрестная проверка используется, когда размер выборки данных составляет менее 10 000. Если выборка больше 10 000, достаточно самого простого метода.

Для использования перекрестной проверки, если мы делаем только предварительное построение модели на основе данных, а не для углубленного анализа, подойдет простая перекрестная проверка. в противном случаеОбычно используется S-кратная перекрестная проверка.. Перекрестная проверка с исключением одного используется в основном, когда размер выборки очень мал, например, когда N меньше 50, обычно используется метод LOOCV. Если объем данных очень мал, например менее 20, используйте метод начальной загрузки.

Справочная статья

Что именно делает набор проверки?

Краткое изложение принципов перекрестной проверки

[Машинное обучение] Подробное объяснение перекрестной проверки