2 Структура обучения PAC (стр. 27-28)

машинное обучение

1.PNG

Рисунок 2.5

Инструкции по минимизации структурных рисков. Три ошибки нанесены как функция измерения емкости. Очевидно, что по мере увеличения размера или емкости набора гипотез ошибка обучения уменьшается, а количество сложных членов увеличивается.SRMВыбирается допущение, минимизирующее диапазон общей ошибки, представляющей собой сумму эмпирических ошибок, а термин сложности показан красным цветом.
Правая часть (2.26) может быть ограничена по теореме 2.2 и увеличивается с размером множества гипотез,R(h*)Р(ч*)уменьшается по мере уменьшения |H|.

2.4.4 Выбор модели

Здесь мы обсудим некоторые широкие варианты моделей и алгоритмические идеи, опираясь на теоретические результаты, представленные в предыдущих разделах. Мы предполагаем, что размер метки i.i.d.mmобучающие образцыSS,использоватьR^S(h)\widehat R_S(h)выражать предположениеhhсуществуетSSошибка наSSзависимость.

Несмотря на то чтоТеорема 2.2.Гарантия действительна только для конечных наборов допущений, но уже дает нам некоторые полезные сведения о разработке алгоритмов, и, как мы увидим в следующих главах, аналогичные гарантии применимы к случаю бесконечных наборов допущений. Такие результаты побуждают нас рассмотреть два термина: эмпирическую ошибку и термин сложности, который здесь равенH|H|и размер выборкиmmФункция.
В связи с этим,ERMАлгоритм только стремится минимизировать ошибку обучающих выборок.

hSERM=argminhеHR^S(h),(2.27)h^{ERM}_{S}=\underset {h\in H}{argmin}\widehat R_S(h),(2.27)

Вероятно, не сработает, потому что игнорирует термин сложность. На самом деле эффективность институциональных алгоритмов управления рисками на практике часто очень низкая. Кроме того, определение институционального решения по управлению рисками во многих случаях трудновыполнимо с вычислительной точки зрения. Например, нахождение линейной гипотезы с наименьшей ошибкой на обучающих выборках является NP-сложной задачей (недетерминированной полиномиально-сложной задачей) (как функция пространственной размерности).

Другой подход, называемый минимизацией структурного риска (srm), рассматривает постоянно увеличивающуюся последовательность бесконечных наборов гипотез.

H0H1Hn(2.28)H_0\subset H_1 \cdot\cdot\cdot\cdot \subset H_n\cdot\cdot\cdot\cdot(2.28)

найти каждыйHnH_nизERMрешениеhnERMh_{n}^{ERM}. Выбранные допущенияhnERMh_{n}^{ERM}Наименьшая сумма эмпирических ошибок в решении, сложность сложных членов (HnH_n,mm)в зависимости отHnH_nразмер (или, шире, вместимость, то есть еще одна мера изобилияHH) и размер выборкиmm:

hSSRM=argminhеHnnеNR^S(h)+complexity(Hn,m)(2.29)h^{SRM}_{S}=\underset {\underset {n\in N}{h\in H_n}}{argmin}\widehat R_S(h)+complexity(H_n,m)(2.29)

Рисунок 2.5 иллюстрирует подход SRM. Хотя SRM выигрывает от сильных теоретических гарантий, он часто требует больших вычислительных затрат, поскольку требует определения решений для анализа нескольких проблем ERM. Обратите внимание, что количество проблем ERM не бесконечно, если минимальная эмпирическая ошибка для некоторого n равна нулю: целевая функция может быть толькоn'nп'≥ пбольшой.
Другой класс алгоритмов основан на более прямой оптимизации, состоящей из наименьшей суммы эмпирических ошибок и члена регуляризации, который наказывает более сложные предположения. Термин регуляризация обычно определяется какh2||h||^2некоторые правила|| \cdot ||Когда h является векторным пространством: