Гиперпараметры, наборы проверки и перекрестная проверка K-кратности

Эта статья была впервые опубликована из публичного аккаунта:RAIS

Предисловие

Эта серия статей представляет собой заметки о чтении «Глубокого обучения», вы можете читать ее вместе с оригинальной книгой, эффект будет лучше.

Гиперпараметры

Параметры: сетевая модель постоянно изучает автоматически настраиваемые переменные в процессе обучения, такие как веса и смещения сети;
Гиперпараметры: параметры, которые управляют моделью и алгоритмом, являются параметрами на уровне архитектуры, которые обычно не изучаются с помощью алгоритмов, таких как скорость обучения, количество итераций, функция активации и количество слоев.

Концепция контраста с гиперпараметрами - это параметры Когда мы обычно обучаем сеть, настройка параметров относится к настройке.Гиперпараметры. Метод определения гиперпараметров обычно основан на опыте или переносе параметров для аналогичных задач.

Вопрос в том, почему гиперпараметры не определяются обучением? Это связано с тем, что этот параметр не так хорошо оптимизирован, и небольшая небрежная оптимизация методами обучения может привести к переоснащению. Вы можете подумать, что лучше смоделировать процесс настройки параметров человека и настроить гиперпараметры.Конечно, это возможно, и гиперпараметры не совсем невозможно оптимизировать программой, но существующие теории еще незрелы, а теории пока нет.Для эффективного руководства практикой это все еще развивающаяся область, поэтому предстоит еще много работы.Во многих случаях оптимизация основана на опыте и интуиции, и алгоритм работает не очень хорошо .

Мы знаем, что полином более высокого порядка и установка параметра затухания веса λ = 0 всегда могут лучше подходить и будут соответствовать. Для этой проблемы мы рассмотрим использование метода набора проверки. Набор проверки описан в нашей предыдущей статье.«Проблема бинарной классификации искусственного интеллекта»упоминается в.

набор проверки

Набор проверки используется для обучения гиперпараметров и обеспечения обратной связи с сетью. Мы используем обучающий набор для обучения сетевой модели, параметры обучения фиксируются, а затем к этой модели применяются данные проверочного набора, и будет получено отклонение Мы настраиваем гиперпараметры в соответствии с отклонением и затем переобучите сеть и повторите итерацию.Определенное количество раз будет настраивать сеть с хорошими гиперпараметрами.Модель, обученная на основе этого гиперпараметра, может, наконец, быть проверена на тестовом наборе и, наконец, определить, как она работает на тестовом наборе. Вот пример:

это было раньше«Проблема бинарной классификации искусственного интеллекта»На картинке в мы видим, что потери при валидации резко возрастают после 4 итераций, что вызвано слишком большим количеством итераций нашего обучения, а установка гиперпараметра количества итераций неразумна, поэтому мы меняем количество итераций на 4. Это пример настройки гиперпараметров на основе проверочного набора.

Объем данных небольшой, обучающий набор: проверочный набор: тестовый набор = 6:2:2, объем данных достаточно большой, обучающий набор: проверочный набор: тестовый набор = 98:1:1. Это ценность опыта.

K-кратная перекрестная проверка

мы были раньше«Прогнозирование цен на жилье»В вопросе упоминается метод перекрестной проверки.Проблема, для решения которой используется этот метод, заключается в том, что объем данных слишком мал, что приводит к проблеме неточной оценки ошибки тестирования сети.K-кратная перекрестная проверкаявляется самым распространенным из них.

На приведенном выше рисунке мы ясно видим, как работает метод перекрестной проверки K-fold. Поскольку объем данных недостаточно велик, мы делим данные на K частей, циклируем K раз и каждый раз выбираем одну из них в качестве тестового набора, чтобы по обученной сети мы могли вычислить ошибку теста каждый раз отдельно. Беря среднее значение этих K ошибок теста, мы оцениваем его как ошибку теста этой сети.

Суммировать

В этой статье представлена разница между параметрами и гиперпараметрами. Настройка параметров относится к настройке гиперпараметров и рассказывает, как оценить ошибку теста при небольшом объеме данных.

Эта статья была впервые опубликована из публичного аккаунта:RAIS