Как машины могут учиться лучше?

Эта серия представляет собой краткое изложение курса «Основы машинного обучения», предлагаемого профессором Сюань-Тянь Линем с факультета информационной инженерии Тайваньского национального университета. Основное внимание уделяется уходу, а не подробным заметкам, поэтому некоторые детали могут быть опущены.

Курс состоит из 16 лекций, разделенных на 4 части:

Когда машины смогут учиться? (Когда машины смогут учиться?)
Почему машины могут учиться? (Почему машины могут учиться?)
Как машины учатся? (Как машины могут учиться?)
Как машины могут учиться лучше? (Как машины могут учиться лучше?)

Эта статья является частью 4, соответствующей лекциям 13-16 исходного курса.

Основное содержание этого раздела:

Проблема переобучения, взаимосвязь между переоснащением и шумом, а также сложность целевой функции;
Регуляризация, связь между регуляризацией и теорией ВК;
Валидация, перекрестная проверка с исключением одного и V-кратная перекрестная проверка;
Три принципа обучения, а именно бритва Оккама, предвзятость выборки и отслеживание данных.

1 Проблема переобучения

1.1 Возникновение переобучения

Теперь предположим, что 5 сэмплов сгенерированы с полиномом 2-й степени с небольшим шумом, для этих 5 сэмплов он может быть идеально аппроксимирован полиномом 4-й степени:

это позволяет $E_\text{in}=0$ ,но $E_\text{out}$ Но он будет очень большим.

если он появится $E_\text{in}$ маленький, $E_\text{out}$ В большом случае плохое обобщение. Если во время тренировки $E_\text{in}$ Становясь все меньше и меньше, $E_\text{out}$ больше и больше, это называется переоснащением (overfitting).

И шум, и масштаб данных могут влиять на переоснащение. Давайте сначала посмотрим на следующие два набора данных:

Данные генерируются полиномом 10-й степени с некоторым шумом;
Данные генерировались полиномами 50-й степени и не содержали шумов.

Изображение набора данных выглядит следующим образом:

Если мы аппроксимируем два вышеуказанных набора данных полиномами степени 2 и 10 соответственно, то $g_2 \in \mathcal{H}_2$ прибыть $g_{10} \in \mathcal{H}_{10}$ Будет ли происходить переобучение в процессе?

Результаты подгонки следующие:

После сравнения обнаруживается, что в обоих наборах данных происходит переобучение!

Научитесь изучать кривую, когда $N\to \infty$ очевидно $\mathcal{H}_{10}$ будет меньше $\overline{E_{out}}$ ,но $N$ Когда он мал, у него будет большая ошибка обобщения. Серая область — это место, где происходит переобучение.

Фактически, для данных, сгенерированных свободным от шума полиномом 50-й степени, сама «сложность целевой функции» может рассматриваться как аналогичный шум.

Далее проведите более подробный эксперимент. использовать

\begin{aligned} y &= f(x) + \epsilon\\ &\sim \text{Gaussian}\left(\sum_{q=0}^{Q_f} \alpha_q x^q, \sigma^2 \right) \end{aligned}

генерировать $N$ данные, из них $\epsilon$ — независимый и одинаково распределенный гауссовский шум, а уровень шума равен $\sigma^2$ , $f(x)$ Об уровне сложности $Q_f$ распределяется равномерно. То есть целевая функция имеет $Q_f$ и $\sigma^2$ две переменные.

Затем исправьте $Q_f=20$ и $\sigma^2=0.1$ , или подогнать данные полиномами степени 2 и 10 соответственно, и использовать $E_\text{out}(g_{10})-E_\text{out}(g_{2})$ Измеряет уровень переобучения. Результат выглядит следующим образом:

Области с красноватыми цветами переоснащаются.

добавлен $\sigma^2$ Гауссов шум можно назвать стохастическим шумом, а степень целевой функции $Q_f$ Также присутствует шумоподобный эффект, поэтому его можно назватьdeterministic noise.

если $f\notin \mathcal{H}$ ,Так $f$ Должны быть некоторые части, которые не могут быть $\mathcal{H}$ поймал, лучший $h^*\in\mathcal{H}$ и $f$ Разница заключается в детерминированном шуме, который ведет себя как случайный шум (аналогично генераторам псевдослучайных чисел). Он отличается от стохастического шума тем, что $\mathcal{H}$ связанных, и для каждого $x$ , его значение детерминировано:

1.2 Обработка переобучения

Вообще говоря, идеи для борьбы с переоснащением следующие:

Начните с простой модели;
очистка данных (data cleaning), исправьте ошибочные данные (например, исправив категорию метки);
Сокращение данных (data pruning), удаляя выбросы (outlier);
data hinting, когда размера выборки недостаточно, вы можете выполнить некоторую простую обработку существующих выборок, чтобы увеличить размер выборки.Например, в цифровой классификации вы можете немного повернуть или перевести данные, не меняя их метки, так что выборка размер можно увеличить;
Регуляризация(regularization), см. следующий раздел;
проверять(validation), увидеть ниже.

2 Регуляризация

2.1 Регуляризация

Идея регуляризации как бы начинается с $\mathcal{H}_{10}$ «отступить» на $\mathcal{H}_{2}$ . Происхождение названия заключается в том, что на заре аппроксимации функций многие задачи были некорректными, то есть было много функций, удовлетворяющих решению задачи, поэтому были добавлены некоторые ограничения. В некотором смысле переобучение в машинном обучении также является проблемой «слишком много правильных решений».

$\mathcal{H}_{10}$ Общая форма предположения в

w_0+w_1 x+w_2 x^2+w_3 x^3+\cdots+w_{10} x^{10}

и $\mathcal{H}_{2}$ Общая форма предположения в

w_0+w_1 x+w_2 x^2

На самом деле, пока предел $w_3=w_4=\cdots=w_{10}=0$ , там будет $\mathcal{H}_{10}=\mathcal{H}_{2}$ . при использовании $\mathcal{H}_{10}$ При добавлении этого ограничения фактически используется $\mathcal{H}_2$ Займитесь машинным обучением.

$\mathcal{H}_2$ гибкость ограничена, но $\mathcal{H}_{10}$ Это тоже очень опасно.Есть ли компромиссный набор гипотез? Можно также ослабить это состояние и стать $\sum\limits_{q=0}^{10}\mathbf{1}_{[w_1\ne 0]}\le 3$ , множество допущений при этом ограничении записывается как $\mathcal{H}_2'$ ,имеют $\mathcal{H}_{2}\subset \mathcal{H}_{2}' \subset \mathcal{H}_{10}$ , то есть больше $\mathcal{H}_{2}$ более гибкий, но без $\mathcal{H}_{10}$ Так опасно.

существует $\mathcal{H}_{2}'$ , решаемая задача трансформируется в

\min\limits_{\mathbf{w}\in \mathbb{R}^{10+1}} E_\text{in}(\mathbf{w})\quad \text{s.t. } \sum\limits_{q=0}^{10}\mathbf{1}_{[w_1\ne 0]}\le 3

Это NP-сложная задача высокой сложности. вместо того, чтобы изменить его на

\min\limits_{\mathbf{w}\in \mathbb{R}^{10+1}} E_\text{in}(\mathbf{w})\quad \text{s.t. } \sum\limits_{q=0}^{10}w^2_q \le C

Пусть набор гипотез будет $\mathcal{H}(C)$ , что то же самое, что $\mathcal{H}_2'$ частично перекрывается, а для $C$ Имеет мягкую, гладкую структуру:

\mathcal{H}_{0} \subset \mathcal{H}_{1} \subset \cdots \subset \mathcal{H}_{\infty} =\mathcal{H}_{10}

в уме $\mathcal{H}(C)$ Оптимальное решение, найденное ниже, $\mathbf{w}_\text{REG}$ .

При отсутствии регуляризации направление обновления параметров с градиентным спуском $-\nabla E_\text{in}(\mathbf{w})$ . при добавлении регуляризации $\mathbf{w}^T \mathbf{w}\le C$ Когда лимит установлен, он должен быть обновлен ниже лимита, как показано ниже:

$\mathbf{w}^T \mathbf{w}= C$ Нормальный вектор $\mathbf{w}$ , из рисунка видно, что пока $-\nabla E_\text{in}(\mathbf{w})$ и $\mathbf{w}$ не параллельна, она может продолжать убывать ниже этого предела $E_\text{in}(\mathbf{w})$ , поэтому при достижении оптимального решения должно быть

-\nabla E_\text{in}(\mathbf{w}) \propto \mathbf{w}_\text{REG}

Из этого проблема может быть преобразована в решение

\nabla E_\text{in}(\mathbf{w}_\text{REG}) +\dfrac{2 \lambda}{N} \mathbf{w}_\text{REG}=0

в $\lambda$ — введенный множитель Лагранжа. Предположим, известно $\lambda>0$ , просто напишите формулу градиента, то есть:

\dfrac{2}{N}(X^T X\mathbf{w}_\text{REG}-X^T \mathbf{y})+\dfrac{2 \lambda}{N} \mathbf{w}_\text{REG}=0

можно решить напрямую

\mathbf{w}_\text{REG}\leftarrow (X^T X+\lambda I)^{-1} X^T\mathbf{y}

если только $\lambda>0$ , $X^T X+\lambda I$ Является положительно определенной матрицей, она должна быть обратимой.

В статистике это часто называют гребневой регрессией (ridge regression).

С другой точки зрения решить

\nabla E_\text{in}(\mathbf{w}_\text{REG}) +\dfrac{2 \lambda}{N} \mathbf{w}_\text{REG}=0

Это эквивалентно решению (эквивалентно интегрированию обеих частей приведенной выше формулы)

\min\limits_{\mathbf{w}} E_\text{in}(\mathbf{w})+\dfrac{\lambda}{N}\mathbf{w}^T\mathbf{w}

$\mathbf{w}^T\mathbf{w}$ Вызываемый регуляризатор, весь $E_\text{in}(\mathbf{w})+\dfrac{\lambda}{N}\mathbf{w}^T\mathbf{w}$ Можно назвать дополненной ошибкой $E_\text{aug}(\mathbf{w})$ .

Таким образом, изначально дано $C$ Теперь после решения условной задачи на максимальное значение она преобразуется в заданную $\lambda$ Безусловная задача максимального значения.

возможно $+\dfrac{\lambda}{N}\mathbf{w}^T\mathbf{w}$ называется регуляризацией затухания веса, потому что чем больше $\lambda$ , что эквивалентно тому, что $\mathbf{w}$ короче, также эквивалентно $C$ Меньше.

Небольшая деталь: при преобразовании признаков, если вы используете $\Phi(\mathbf{x})=(1,x,x^2,\ldots,x^Q)$ , предполагая $x_n \in [-1,+1]$ ,Так $x^q_n$ был бы очень мал, что потребовало бы большого $w_q$ Если в это время снова использовать регуляризацию, она «сверхштрафует» многомерные коэффициенты, потому что они должны быть относительно большими. Поэтому в пространстве полиномов можно найти некоторые ортонормированные базисные функции, которые представляют собой специальные полиномы, называемые полиномами Лежандра (Legendre Polynomials), а затем используйте эти полиномы для преобразования признаков $(1,L_1(x),L_2(x),\ldots,L_Q(x))$ Вот и все. Первые пять полиномов Легендра, как показано ниже:

2.2 Регуляризация и теория ВК

При минимизации аугментированной ошибки, хотя она и эквивалентна задаче на максимум с ограничениями, на самом деле это не так. $\mathbf{w}$ ограничено в $\mathcal{H}(C)$ середина. Так как же именно происходит регуляризация?

Увеличенную ошибку можно увидеть с другого ракурса:

E_\text{aug}(\mathbf{w})=E_\text{in}(\mathbf{w})+\dfrac{\lambda}{N}\mathbf{w}^T\mathbf{w}

Руо Ки $\mathbf{w}^T\mathbf{w}$ за $\Omega(\mathbf{w})$ , который измеряет гипотезу $\mathbf{w}$ сложность. в то время как в VC Bound

E_\text{out}(\mathbf{w})\le E_\text{in}(\mathbf{w})+\Omega(\mathcal{H})

$\Omega(\mathcal{H})$ измерить все $\mathcal{H}$ сложность. если $\dfrac{\lambda}{N}\Omega(\mathbf{w})$ и $\Omega(\mathcal{H})$ есть какая-то связь, $E_\text{aug}$ прямо как $E_\text{out}$ агент, нет необходимости проходить $E_\text{in}$ сделать хорошо $E_\text{out}$ , и в то же время наслаждаться всем $\mathcal{H}$ высокая гибкость.

Другой ракурс, первоначально для всей $\mathcal{H}$ имеют $d_\text{VC}(\mathcal{H})=\tilde{d}+1$ , что теперь эквивалентно только рассмотрению $\mathcal{H}(C)$ Допущение в , т. е. размерность ВК, становится $d_\text{VC}(\mathcal{H}(C))$ . «Эффективное измерение VC» может быть определено $d_\text{EFF}(\mathcal{H},\mathcal{A})$ ,если только $\mathcal{A}$ Если регуляризация проводится в эффективном измерении VC будет меньше.

2.3 Более общие регулярные термины

Существует ли более общий регулярный термин $\Omega(\mathbf{w})$ ? Как выбрать? Есть следующие предложения:

относящийся к цели (target-dependent), если мы знаем некоторые свойства целевой функции, мы можем ее выписать.Например, если мы заранее знаем, что целевая функция близка к четной функции, мы можем выбрать $\sum \mathbf{1}_{[q \text{ is odd}]} w^2_q$ ;
разумный(plausible), вы можете выбрать гладкий или простой, например, обычный член L1 для разреженности $\sum\vert w_q \vert$ , что будет объяснено ниже;
Дружелюбный (friendly), то есть легко поддающийся оптимизации, например L2 обычный термин $\sum w_q^2$ ;
Даже если выбранный регулярный срок не подходит, это не имеет значения, потому что вы можете положиться на $\lambda$ Чтобы настроить, худшее эквивалентно тому, что вы не добавляете обычный термин.

Обычный термин L1 выглядит следующим образом:

Оно выпукло, но не везде дифференцируемо, и после его добавления решение разрежено. L1 полезен, если на практике требуются разреженные решения.

$\lambda$ Как выбрать? в соответствии с $E_\text{out}$ лучший выбранный $\lambda$ , пример такой (жирная точка - лучшая $\lambda$ ):

Как видно из рисунка, чем больше шум, тем больше нужно увеличивать регуляризацию.

А вообще по шуму неизвестно, как выбрать подходящий $\lambda$ ?

3 Проверка

3.1 Набор для проверки

$\lambda$ Как выбрать? мы понятия не имеем $E_\text{out}$ , а также не может напрямую пройти $E_\text{in}$ принимать решения. Было бы неплохо иметь набор тестов, который никогда не используется, чтобы вы могли выбирать на основе набора тестов:

m^*=\mathop{\arg\min}\limits_{1\le m\le M} \left( E_m=E_\text{test}(\mathcal{A}_m(\mathcal{D})) \right)

И это гарантирует обобщение (Хёффдинг):

E_\text{out}(g_{m^*})\le E_\text{test}(g_{m^*})+O(\sqrt{\dfrac{\log M}{N_\text{test}}})

Но где же настоящий тестовый набор? только компромисс от $\mathcal{D}$ Разделите часть данных как набор проверки $\mathcal{D}_\text{val}\subset \mathcal{D}$ конечно, также требуется, чтобы он никогда не использовался в прошлом $\mathcal{A}_m$ используется уже.

Разделите набор проверки $\mathcal{D}_\text{val}$ Процесс выглядит следующим образом:

Использовать тренировочный набор $g^-_m$ , также могут иметь гарантии обобщения:

E_\text{out}(g_m^-)\le E_\text{val}(g_m^-)+O(\sqrt{\dfrac{\log M}{K}})

Общий процесс проверки выглядит следующим образом:

Видно, что лучшая модель выбирается с помощью проверочного набора $g^-_{m^*}$ После этого еще необходимо обучить лучшую модель со всеми данными. $g_{m^*}$ Выходите, вообще говоря, что вы получите от этого тренинга $g_m^*$ будет ниже из-за большего количества обучающих данных $E_\text{out}$ ,Увидеть ниже:

Нижняя пунктирная линия на рисунке $E_\text{out}$ . можно увидеть, $K$ не может быть слишком большим или слишком маленьким, если $K$ слишком мал, хотя $g_m^-\approx g_m$ ,но $E_\text{val}$ и $E_\text{out}$ будет сильно различаться, и если $K$ слишком большой, хотя $E_\text{val}\approx E_\text{out}$ , но сделает $g_m^-$ Сравнивать $g_m$ Намного хуже.

Что мы действительно хотим сделать, так это

$E_\text{out}(g)\approx E_\text{out}(g^-)\approx E_\text{val}(g^-)$

требование первого завета $K$ Меньше, второй знак равенства требует $K$ больше, поэтому необходимо выбрать подходящий $K$ , необязательно, как правило $K=\dfrac{N}{5}$ .

3.2 Перекрестная проверка с исключением одного (LOOCV)

если позволить $K=1$ , то есть оставить только один образец $n$ В качестве проверочного набора запишите

E_\text{val}^{(n)}(g_n^-)=\text{err}(g_n^-(\mathbf{x}_n),y_n)=e_n

но один $e_n$ не в состоянии сообщить нам точную информацию, пытаясь найти способ $E_\text{val}^{(n)}(g_n^-)$ Возьмите среднее. Вы можете использовать перекрестную проверку с исключением одного (Leave-One-Out Cross Validation):

E_\text{loocv}(\mathcal{H},\mathcal{A})=\dfrac{1}{N}\sum\limits_{n=1}^{N} e_n=\dfrac{1}{N} \sum\limits_{n=1}^{N} \text{err}(g_n^- (\mathbf{x}_n),y_n)

На что мы надеемся $E_\text{loocv}(\mathcal{H},\mathcal{A})\approx E_\text{out}(g)$ . Можно доказать:

\begin{aligned} &\mathop{\mathcal{E}}\limits_{\mathcal{D}} E_\text{loovc}(\mathcal{H},\mathcal{A})\\ =& \mathop{\mathcal{E}}\limits_{\mathcal{D}}\dfrac{1}{N}\sum\limits_{n=1}^{N} e_n\\ =&\dfrac{1}{N} \sum\limits_{n=1}^{N} \mathop{\mathcal{E}}\limits_{\mathcal{D}} e_n\\ =&\dfrac{1}{N} \sum\limits_{n=1}^{N} \mathop{\mathcal{E}}\limits_{\mathcal{D}_n} \mathop{\mathcal{E}}\limits_{(\mathbf{x}_n,y_n)} \text{err}(g_n^-(\mathbf{x}_n),y_n)\\ =&\dfrac{1}{N} \sum\limits_{n=1}^{N} \mathop{\mathcal{E}}\limits_{\mathcal{D}_n} E_\text{out}(g_n^-)\\ =&\dfrac{1}{N} \sum\limits_{n=1}^{N} \overline{E_\text{out}}(N-1)\\ =& \overline{E_\text{out}}(N-1) \end{aligned}

так как $E_\text{loovc}(\mathcal{H},\mathcal{A})$ ожидания расскажут нам кое-что о $E_\text{out}(g^-)$ желаемая информация, поэтому также называется $E_\text{out}(g)$ «Почти беспристрастная оценка» .

Используйте распознавание рукописных цифр - классифицируйте, равно ли число 1 - посмотрите эффект, два основных признака - симметрия и средняя интенсивность, выполните преобразование признаков (увеличьте количество признаков), а затем используйте $E_\text{in}$ и $E_\text{loocv}$ Выполните выбор параметра (параметром является количество преобразованных объектов), и результаты будут следующими:

если $E_\text{out}$ , $E_\text{in}$ , $E_\text{loocv}$ Случаи, которые изменяются с изменением количества признаков, рисуются, как показано на рисунке:

3.3 $V$ - Сложите перекрестную проверку

Если есть 1000 точек, выполните перекрестную проверку с исключением одного, чтобы вычислить 1000 раз. $e_n$ , каждый расчет также использует 999 выборок для обучения, за исключением нескольких алгоритмов (таких как линейная регрессия, которая имеет аналитическое решение), что в большинстве случаев требует очень много времени. С другой стороны, как видно из конца предыдущего раздела, поскольку $E_\text{loocv}$ Это усреднение в одной точке, и результат будет дрожащим и недостаточно стабильным. Поэтому на практике loocv используется не очень часто.

На практике чаще используется $V$ Свернуть перекрестную проверку ( $V$ -Fold Cross Validation), вскоре $\mathcal{D}$ случайным образом разделены на $V$ Разделите на равные части, используйте каждую часть для проверки по очереди, а остальные используйте $V-1$ обучение, обычно проводимое на практике $V=10$ ,Как показано ниже:

Это может вычислить

E_\text{cv}(\mathcal{H}, \mathcal{A})=\dfrac{1}{V}\sum\limits_{v=1}^{V} E_\text{val}^{(v)}(g_v^-)

Затем используйте его для выбора параметров:

m^*=\mathop{\arg\min}\limits_{1\le m\le M} \left( E_m=E_\text{cv}(\mathcal{H}_m, \mathcal{A}_m) \right)

Стоит отметить, что поскольку процесс проверки также делает выбор, его результаты все же будут более оптимистичными, чем окончательные результаты тестирования. Поэтому в конечном итоге важноконтрольная работарезультаты, не найденолучшая проверкарезультат.

4 Три принципа обучения

Вот три принципа обучения.

4.1 Бритва Оккама

Первый — это бритва Оккама (Occam's Razor).

An explanation of the data should be made as simple as possible, but no simpler.

--Albert Einsterin (?)

Легенда гласит, что это сказал Эйнштейн, но доказательств этому нет. Это можно проследить до слов Оккама:

entia non sunt multiplicanda praeter necessitatem (entities must not be multiplied beyond necessity)

--William of Occam (1287-1347)

В машинном обучении часто разумнее всего говорить о самой простой модели, которая может соответствовать данным.

Что такое простая модель? для одной гипотезы $h$ скажем, требовать $\Omega(h)$ Меньше означает меньше параметров для модели (набор гипотез) $\mathcal{H}$ скажем, требовать $\Omega(\mathcal{H})$ Меньше означает, что он не содержит многих возможных гипотез. Эти два связаны, например $\vert \mathcal{H} \vert$ шкала $2^\ell$ , то фактически только $\ell$ параметры могут описать все $h$ , поэтому маленький $\Omega(\mathcal{H})$ значит маленький $\Omega(h)$ .

В философском смысле, чем проще модель, тем меньше вероятность того, что произойдет «подгонка», а если она произойдет, значит, в данных могут быть какие-то важные закономерности.

4.2 Смещение выборки

Во-вторых, нужно знать о систематической ошибке выборки (Sampling Bias).

Если процесс выборки данных предвзят, то машинное обучение также даст предвзятый результат.

При объяснении измерения VC было упомянуто предварительное условие, то есть учебные данные и тестовые данные должны прийти из того же распределения. Когда это невозможно, правило большого пальца заключается в том, чтобы попытаться подобрать тестовые и тренировочные среды как можно ближе.

4.3 Отслеживание данных

В-третьих, обратить внимание на отслеживание данных (Data Snooping).

Если вы обнаружите, что данные больше соответствуют определенной модели путем наблюдения, а затем выберете эту модель, это будет более опасно, потому что это эквивалентно добавлению сложности модели в вашем мозгу.

Фактически, в любом процессе использования данных данные косвенно отслеживаются. Принятие любого решения после просмотра производительности данных вводит «мозговую» сложность.

Например, при выполнении масштабирования вы не можете объединить обучающие наборы и тестовые наборы для масштабирования, а можете только сделать это.

На самом деле подобные ситуации возникают и в передовых исследованиях машинного обучения. Например, первая бумага, обнаруженная $\mathcal{H}_1$ Будет в $\mathcal{D}$ работал лучше, в то время как во втором документе предлагалось $\mathcal{H}_2$ , это в $\mathcal{D}$ Сравнивать $\mathcal{H}_1$ Выступила лучше (иначе она не была бы опубликована), и третья тоже... Если рассматривать все статьи как одну итоговую, то реальная размерность ВК на самом деле $d_\text{vc}(\cup_m \mathcal{H}_m)$ , оно будет очень большим, а обобщение будет очень плохим. Это потому, что фактически на каждом этапе процесса автор шпионит за данными, читая предыдущую литературу.

Поэтому при машинном обучении необходимо аккуратно обращаться с данными. Чтобы избежать использования данных для принятия некоторых решений, лучше заранее добавить в модель знания предметной области, а не добавлять некоторые функции в модель после наблюдения за данными. Кроме того, всегда будьте скептичны, будь то на практике, в процессе чтения статьи или при работе с вашими собственными результатами.