Осуществимость алгоритма машинного обучения (краеугольный камень машинного обучения)

машинное обучение искусственный интеллект алгоритм игра

Эта статья представляет собой краткую заметку, составленную автором после прохождения курса профессора Линь Сюаньтяня «Основополагающий камень машинного обучения» (не разделенного на разделы в соответствии с курсом). был отмечен.

все права защищены:Блог CSDN Самоисцеляющие заметки прокрастинаторов


Осуществимость - осуществимость


Модель изучается на обучающих выборках для оценки неизвестных данных (представление можно рассматривать как удерживание горстки шариков из корзины и оценку соотношения разных цветов во всей корзине через соотношение разных цветов в шариках). , что является типичным небольшим взглядом на большое , мы должны изучить, как машинное обучение гарантирует, что этот «заглянуть» осуществим. Выполнимость машинного обучения, то есть есть надежда доказать частоту ошибок E для h в выборке.inможет и частота ошибок E по неизвестным даннымoutБлиже, значит следующий шаг - опускание Еin, чтобы получить соответствующее малое Eout, а затем получить h, который ближе к f как g, чтобы добиться хорошего эффекта машинного обучения.

Шаг за шагом (все берут бинарную задачу в качестве примера):

  • Hoeffding

Математически доказано неравенство Хёффдинга, что доказывает одно: при достаточно большом размере выборки пропорция в выборке очень близка к общей реальной пропорции, то есть так называемая вероятно приблизительно правильная (ПАК)


Для данной гипотезы Хёффдинг можно использовать в качестве основы для суждения о том, является ли h хорошим, то есть, если частота ошибок h в выборке мала, максимальная вероятность может гарантировать, что она имеет небольшую частоту ошибок в выборке. все реальные данные.

  • Multi-binhoeffding

Для наборов гипотез, содержащих много h, нельзя просто использовать вывод Хёффинга. Если маловероятное событие повторяется много раз, вероятность его возникновения будет очень велика (если 150 человек подбрасывают монету 5 раз, вероятность того, что хотя бы один человек пять раз выпадет решкой, составляет 99,15 %, и речь идет только об одном человеке). Эта вероятность равна 1/32), что делает возможной следующую ситуацию: по выборке D в H выбирается h с наименьшей частотой ошибок, но фактически h имеет большую частоту ошибок в целом, т. е. , образец D для H - образец BAD

Для заданного произвольного D вероятность того, что это ПЛОХАЯ выборка некоторого h, равна P, и можно вывести, что P пропорциональна количеству выборочных данных N и обратно пропорциональна количеству M h в H (используя Hoeffingh и объединение), то есть говорят, что когда M меньше, а N больше, мы можем выбрать тот, у которого наименьшая частота ошибок в H, в качестве желаемого g.

(A)

На данный момент доказано, что [при условии, что M конечно и N достаточно велико] для любого h в H, Ein≈ Еout


Ссылаться на:Нет. OSCHINA.net/найти Билла/ было бы…

  • VC bound

[В случае M->∞] Как преобразовать M в конечный и медленно растущий многочлен, чтобы сделать правую часть неравенства как можно меньше, является проблемой, обсуждаемой ниже. использованный в процессе деформации в предыдущем доказательстве. Из формулы видно, что верхняя граница после вывода очень нечеткая, и верхняя граница будет получена только при отсутствии пересечения М событий, т. е. до тех пор, пока «есть ах, для h, D — ПЛОХАЯ выборка», то мы определяем, что это ПЛОХАЯ выборка (аналогично значению вето с одним голосом), то есть верхнее определение высокое



Dichotomy: Учитывая выборку D, в зависимости от того, является ли точка выборки ○ или × (представляющая Ein1 или 0) для их классификации, если результат классификации линейно разделим (для разделения ситуации можно использовать определенное h), то такая ситуация называется дихотомией (дихотомия/деление, что эквивалентно делению всех h на H по разным результатам линейной классификации группируются, или дихотомия содержит все h), которые могут разделить эту ситуацию; все деления на D образуют множество дихотомии


Growthfunction: Для определенного значения N можно взять много выборок размера N и соответственно много наборов дихотомий Максимальный размер этих наборов определяется как функция роста Функция роста: m(N)

Пока что ситуация с M->∞, кажется, немного улучшилась, мы надеемся заменить M на m(N), а из (A) формулы (B) формулы

(B)

Привязка ВК:На самом деле, невозможно напрямую заменить M на m(N), а (B) нельзя использовать. Внесите небольшие изменения, чтобы правильно вывести формулу (B'), т. е. связать VC.

(Б')

Ограничивающая функция:Функция верхнего предела функции роста, обозначаемая как B(N,k)


Получена верхняя граница (N) верхней границы (граничной функции) верхней границы (функции роста)k-1)

В этот момент (B') можно продолжить вывод, и граница VC может быть переписана как

(C)

До сих пор было доказано, что без учета M [при условии, что k существует и N достаточно велико] для любого h в H, Ein≈ Еout


VC dimension

Shatter: m(N) не более 2N, м(Н)=2NПри вызове H "расколоть" (разбить) эти N точек (до определенного D)

Точка останова:Пусть для H m(N)≠2NУстановленное минимальное значение N, обозначаемое как k (для определенного D)

Используйте игру о борьбе с монстрами и прохождении уровней, чтобы понять вышеприведенные понятия: m(N) — дробовик, H — игрок, на каждом уровне (уровень N) у игрока m(N) пуль, обращенных в сторону 2.NМонстр должен быть застрелен и разбит вдребезги всех монстров, чтобы пройти уровень; когда N постепенно увеличивается с 1, m(N) впервые на N-м уровне меньше 2N, игрок не может сбросить всех монстров, игра сломана, этот N-й уровень является точкой останова

VCdimension:Для H выполняется условие m(N)≠2NНаибольшее значение N, обозначаемое как dVC(для всех D размера N)

① VCdimension = k-1

② N≤dVCПри , хотя бы один D разрушен, N≥dVC, никакое D не может быть разрушено

Значение (не легко понять)

(1) Для D-персептрона размерность его параметра гипотезы равна d+1 (пороговое значение равно размерности 0, возьмем w0=1, весовой векторw(w0,w1,w2,w3, ..., wd)), это похоже на то, что набор гипотез имеет d+1 ручек, представляющих его степени свободы, а для D-PLA dVC=d+1 (процесс доказательства можно рассмотреть внимательно), то есть dVCАссоциируется с Эффективными «бинарными» степенями свободы множества гипотез; можно также сказать, что dVCОтражая мощь H, dVCЧем больше значение, тем мощнее набор гипотез, то есть он может разбить больше точек и более точно разделить данные.

Чтобы быть более общим, dVCс предполагаемыми параметрамиwКоличество свободных переменных примерно равно...

(2) Замените k-1 в (C) на dVC, можно вывести, что


Ω(N, H, δ) называется штрафом за сложность модели, ценой, которую должен заплатить набор гипотез, как показано на рисунке ниже (dVCДело не в том, что чем больше, тем лучше, чем мощнее, тем выше цена ошибки)


(3) Еще один смысловой уровень — сложность выборки.


Подсчитано, что требуемый размер выборки обычно составляет N≈10d.VC