Возможности машинного обучения и измерение венчурного капитала

Возможность машинного обучения

Оценка риска проводится до того, как банк оценивает запрос заявителя на получение кредита. Если заявка будет удовлетворена, она будет одобрена, в противном случае она будет отклонена. Долгосрочные данные и приложения заставили банк найти некоторые правила и начать учиться, поэтому оценка рисков — это процесс обучения.

Во-первых, целевая функция нам неизвестна и требует решения. D — наши обучающие данные, набор гипотез — это набор наших гипотез, то есть из него нужно выбрать нашу лучшую функцию g, алгоритм обучения называется алгоритмом, и этот алгоритм используется для выбора наилучшего g, и, наконец, Достигнут результат g ≈ f.

Сначала введите алгоритм персептрона --- персептрон

Установите w для каждого вектора признаков, поэтому, если сумма wx больше определенного порога, мы устанавливаем это как положительный пример, одобряем кредит; в противном случае отклоняем его.

Но на самом деле мы обычно складываем пороговое значение для прогнозирования вместе, потому что если его разделить, то расчет деривации или расчет алгоритма будет разделен на две части. Преобразуйте следующим образом:

Установите X0, который мы называем 1. Для этого персептрона, для разных наборов весов, у нас есть столько же разных отрезков, и эти разные отрезки на самом деле являются набором гипотез, только что упомянутым набором гипотез.

изучение персептрона

В начале наш вес должен быть случайным значением, поэтому процесс обучения — это процесс изменения направления. Исправляем пошагово через первую ошибку:

Когда обнаружена ошибка, то ошибка должна быть противоположна предсказанному нами диапазону, например, промах, wx

условие остановки персептрона

Для множества D, если оно линейно разделимо, оно будет разделено естественным образом, но если оно линейно неразделимо, ваш персептрон не остановится и будет выполнять итерацию непрерывно, потому что, пока есть ошибка, он будет продолжать итерацию и не будет найти лучшее из g ≈ f. Конечно, мы не рассматриваем нелинейный случай.Для линейно-разделимого случая мы можем использовать формулу, чтобы показать, что W действительно становится все ближе и ближе к Wf в процессе изменения. Когда вектор ближе к вектору, если два вектора являются единичными векторами, чем ближе они к большему, поэтому, если W*Wf становится больше, можно доказать, что персетрон действительно может обучаться.

YnWfXn>0. Поскольку y классифицируется в соответствии с WX, их знаки должны быть одинаковыми. Но возможность увеличения на самом деле может заключаться в том, что вынужденная длина изменяется, что приводит к увеличению, поэтому мы должны доказать

непрерывно увеличивается. Процесс получения выглядит следующим образом:

Следовательно, можно доказать, что W с ростом времени постоянно приближается к Wf, и доказана эффективность обучения персептрона.

Вернемся к нашей возможности машинного обучения

Например, теперь есть сетка из девяти квадратов, которая требует от нас найти закон и сделать вывод о содержании третьей сетки из девяти квадратов:

Разные методы обучения находят разные правила, и полученное значение g(x) тоже разное. Шесть сеток из девяти квадратов в данном примере на самом деле являются данными D в машинном обучении, которые мы можем найти и увидеть, а то, что нам нужно предсказать, — это большие данные, которые мы не можем видеть и хотим предсказать. Например, для кредитной карты сейчас мы хотим предсказать фактически всех, а не только набор данных.

В краеугольном камне машинного обучения учитель использовал пример корзины:На выборках, отличных от обучающего набора D, модель машинного обучения очень сложна и, похоже, не может правильно прогнозировать или классифицировать. Есть ли какой-то инструмент или метод, который может сделать некоторые выводы о неизвестной целевой функции f, чтобы наша модель машинного обучения могла стать полезной?Например, банка с большим количеством мячей:

Фактически, эта банка является h(x) в наборе гипотез. Шарики в банке на самом деле бесцветные, и в соответствии с распределением h(x) мы раскрашиваем все шары в банке в оранжевый и зеленый цвета. оранжевый неправильно, а зеленый правильно. Небольшой шарик, нарисованный с помощью выборки, на самом деле является нашим набором данных, который был получен и имеет метку. Теперь мы должны определить, можно ли использовать пропорцию образца для определения пропорции в банке? u — доля апельсинов в банке, а v — доля апельсинов, извлеченных при отборе проб. Тогда согласно неравенству Хувинга:P[|v−u|>ϵ]≤2exp(−2ϵ2N)Когда N велико, они на самом деле похожи.Мы называем u ≈ v вероятно приблизительно правильным (PLA), примерно равным.

Ссылка на машинное обучение

Мы сопоставляем содержимое банки с концепцией машинного обучения. Возможность того, что гипотеза и целевая функция равны в машинном обучении, аналогична проблеме вероятности оранжевых шариков в банке; шарики в банке аналогичны x в выборочном пространстве машинного обучения; оранжевые шарики аналогичны h (x) и f не равны; аналогия с зеленым шариком равна h(x) и f; N шаров, извлеченных из банки, аналогичны обучающей выборке D машинного обучения, а разница между двумя выборочными выборками и общая выборка независима и одинаково распределена. Следовательно, если выборка N достаточно велика и независимо и одинаково распределена, то из вероятности того, что h(x)≠f(x) в выборке, можно сделать вывод, что h(x)≠f( Какова вероятность Икс).

Ключом к пониманию является то, что нам нужно знать, какова вероятность ошибки h(x) путем выборки, путем локального обобщения на глобальное.

Здесь вводятся два значения: значение Ein — это частота ошибок выборки, Eout — глобальная частота ошибок, а здесь — частота ошибок h. Используйте неравенство Хуфдинга:P[|Ein(h)−Eout(h)|>ϵ]≤2exp(−2ϵ2N)Неравенство показывает, что: когда h определено и N велико, Ein ≈ Eout, но это не означает, что g ≈ f, потому что нам нужно знать Ein ≈ 0 позже.

аналогия с машинным обучением

Банок столько, сколько h в наборе гипотез. Но в процессе выборки можно получить неверные данные, неверную выборку. Например, если вы подбрасываете монету три раза вверх и один раз вниз, это не означает, что монета неровная. Таким образом, выборка может также давать плохие образцы.

При таком большом количестве наборов данных, согласно неравенству Хофдинга, в большинстве случаев выборочные данные на самом деле являются хорошими данными, Ein ≈ Eout, но между условиями Ein и Eout будет очень небольшая разница. Другими словами, разные наборы данных Dn могут стать неверными данными для разных гипотез. Пока Dn — это неверные данные по какой-то гипотезе, тогда Dn — это неверные данные. Только когда Dn является хорошими данными во всех гипотезах, это означает, что Dn не является плохими данными, и алгоритм A может быть свободно выбран для моделирования. Тогда, согласно неравенству Хёффдинга, верхняя граница неверных данных может быть выражена в виде границы объединения:

Это означает, что если M конечно, а N велико, то вероятность плохих выборок будет очень мала, можно установить Ein ≈ Eout, а затем выбрать разумный алгоритм, получить g ≈ f и машинное обучение эффективен. Это имеет хорошую способность к обобщению.

Задача, которую необходимо решить, была рассмотрена М.

Процесс машинного обучения после приведенного выше объяснения:

Итак, вернемся к двум вопросам:

①Ein≈Eout ②Ein ≈ 0

M представляет количество h в наборе гипотез. Если M мало, вероятность достижения плохой выборки мала, но вариантов меньше. Если оно велико, вероятность может стать высокой. Таким образом, М не должно быть ни большим, ни маленьким. Но на самом деле, многие наборы гипотез машинного обучения являются M бесконечными, такими как SVM, линейная регрессия, логистическая регрессия, их M бесконечно, но их обучение эффективно, поэтому, очевидно, M здесь можно заменить. Замените на ограниченный mH.

Обращение с М

Набор гипотез бесконечен, но его типы определенно ограничены, например, 2D-персептрон для классификации точки данных:

В этой классификации есть бесконечные наборы гипотез, потому что разные наборы w представляют собой разные прямые линии, но есть только два вида классификаций, либо X, либо O, их всего два, поэтому можно видеть, что многие H перекрываются. Если есть две точки:

Всего четыре случая. В три часа ситуация иная:

Это 8 случаев.

Итак, есть шесть случаев. Мы, естественно, ищем по максимуму, поэтому 3 балла и 2 классификации — это 8 случаев. Четыре очка – это 14 ситуаций.

Таким образом, наше M можно заменить конечным числом. Если можно гарантировать, что он меньше степени 2^n, даже если он бесконечен, его типы ограничены.функция ростаОпределение функции роста: для различных наборов, состоящих из N точек, дихотомия, соответствующая набору, является наибольшей, тогда значение дихотомии равно mH(H), а его верхняя граница равна 2N:

И наш пример только что:

Теперь нам нужно обсудить, как ограничить функцию роста, получить выражение или найти верхнюю границу.

Обсуждение функции роста

Для одномерных положительных лучей:

когда N = 1 мН(1) = 2 когда N = 2 мН(2) = 3 Таким образом, его mH(N) = N + 1

Для одномерных положительных интервалов:

Можно получить следующий вывод:

И для выпуклого множества: Его функция роста равна степени 2^n.

Отсюда видно, что в некоторых случаях функция роста будет ограничена, когда она вырастет до определенной степени, то есть в этом месте она будет меньше 2^n. И эту точку мы называемbreak point. После этой точки и после этой точки никакие две точки не могут быть разрушены. Значение дробовика: Например, если у вас есть дробовик, вы обязаны убить всех одним выстрелом в каждом уровне.На первом уровне вы можете убить всех одним выстрелом, на втором уровне также можно, а на третьем уровень Нет, то 3 является точкой останова. Положительные лучи: Когда N = 1, случай осколка состоит в том, что эта точка равна x, o, и она, очевидно, достижима. При N = 2 ситуация разбиения есть хх, оо, хо, ох, и ох недостижимо, поэтому 2 является точкой разрыва, а при N = 3 еще более невозможно разбиться. Если это три классификации, то требуется, чтобы любые три точки не могли быть разрушены. То же самое и в других случаях:

Сможет ли он разбиться, нужно посмотреть, может ли он иметь 2 ^ n категорий, а три категории — 3 ^ n.

mH(N) предел

Теперь мы уверены, что точка разрыва определенно является пределом mH(N), потому что в этой точке это уже не закон 2^n.

Все, что нам нужно доказать сейчас, это то, что верхняя граница есть plot(N). Для mH(N), поскольку mH(N), соответствующие разным моделям, различны, очень трудно напрямую обсуждать mH(N). Мы можем найти верхнюю границу. Чтобы обсудить mH(N), мы непосредственно обсудим верхнюю связаны. Мы устанавливаем верхнюю границу как B(N , K).

Первый столбец должен быть 1. Когда N

Заполнить верхний треугольник на самом деле очень просто, теперь заполните нижний треугольник. Сначала напишите все случаи B(4,3):

Разделите его на:

Оранжевый выше используется как a, а фиолетовый снизу используется как b, есть:

Итак, мы можем получить:

Дальнейшее продвижение:

Итак, все дело в следующем:

В итоге по рекурсивной формуле можно получить:

Таким образом, верхняя граница B(N ,K) удовлетворяет многочлену.

Наконец, мы получаем, что верхняя граница M является многочленом. Обычная идея состоит в том, чтобы вернуть исходную формулу:

Но это невозможно, так как этому одному Ein соответствует одно М, а Eout бесконечно, а после замены M на mH(N) это Ein ограничено, и вычисление не может быть произведено, если два ряда различны. Итак, правильная формула:

Не говоря уже о том, как это доказать. Конечный результат называетсяVC bound:

Подводя итог процессу: во-первых, наше M бесконечно, и теперь мы хотим заменить его конечным числом, поэтому мы находим верхнюю границу, находим точку разрыва и обнаруживаем, что эта точка может нарушить закон экспоненциального роста; и для разных размерных моделей mH(N) отличается, поэтому подготовьте верхнюю граничную функцию B(N, K), чтобы вам не нужно было рассматривать проблему размерности, вы можете напрямую найти верхнюю граничную функцию, затем найти верхнюю граничную функцию связанная функция B(N , K) является многочленом. Таким образом, гарантируется, что это M управляемо.

VC dimension

Кстати, границы. Таким образом, неравенство относится только к K и N.Согласно теории VCbound: если пространство H имеет точку излома k и N достаточно велико, то, согласно теории границ VC, алгоритм обладает хорошей обобщающей способностью; если в пространстве H есть ag, которые могут сделать Ein ≈ 0, тогда полный набор наборов данных имеет хорошую способность к обобщению, частота ошибок будет низкой.

Вот новое существительное:VC dimensionVC Dimension — это максимальное количество входов, которое может разбить набор гипотез H, то есть максимальная и полностью корректная классификационная способность. Фактически это точка останова - 1. Потому что точка останова — это минимальная точка, в которой никакие две точки не могут быть разрушены. Давайте посмотрим на предыдущие примеры, какова их размерность VC:

Фактически, вычтите 1 из строки. Теперь мы используем размерность VC вместо K, тогда проблема границы VC преобразуется в проблему размерности VC и N, что естественным образом решает первую проблему - Eout ≈ Ein.

VC dimension of perceptron

Известно, что персептронов k=4, то есть dvc=3. Согласно теории границ VC, когда N достаточно велико, Eout(g) ≈ Ein(g). Если вы найдете такое g, что Ein(g) ≈ 0, то вы сможете доказать, что PLA можно выучить.

Так обстоит дело в 2D, а если оно многомерное? 1D персептрон, dvc = 2, 2D персептрон, dvc = 3, мы предполагаем, что это связано с измерением, d измерением, то есть d+1. Всего два шага для доказательства: двк >= д+1 двк

Докажите, что dvc >= d+1В d-измерении нам нужно найти только d+1 входов определенного класса, которые можно разрушить. Поскольку совпадение найдено, остальные могут получить dvc >= d+1. Построим обратимую X-матрицу:

Суть дробления состоит в том, чтобы предположить, что суждение о пространстве H верно для всех случаев X, а это означает, что можно найти вес W, удовлетворяющий условию W*X = Y и W = X^-1 * Y, поэтому можно получить, что для d+1 вход разрушаем.

Докажите, что dvc В d измерениях неравенство выполняется, если для любых d+2 входов оно не должно нарушаться. Мы строим произвольную матрицу X, содержащую d+2 входа с d+1 столбцами и d+2 строками. Определенный столбец этих d+2 векторов должен быть линейно представлен другими d+1 векторами, например, для вектора Xd+2 это может быть выражено как: Xd+2=a1∗X1+a2∗X2+⋯+ad +1∗Xd +1. Таким образом, его степени свободы составляют только d+1, потому что d+1 определено, а d+2 известно. Итак, вкратцеdvc = d+1

Понимание измерения венчурного капитала

Буква W в персептроне называется функциями. W можно регулировать по желанию, как кнопку, поэтому ее также называют степенью свободы.Размерность VC представляет собой классификационную способность пространства гипотез, то есть она отражает степень свободы H, а количество генерируемых дихотомий равно количеству признаков..

Например, для двумерного персептрона размерность VC равна 3, а W равно {W0,W1,W2}.

вернуться в ВК

Вышеупомянутое измерение VC подошло к концу, вернемся к границе VC.

Это связанная, которую мы получены ранее. Согласно предыдущему неравенству кофеса, если | ein-eout |> ε, то вероятность его возникновения не будет превышать δ; наоборот, вероятность хорошего возникновения составляет 1-δ. Давайте повторно деривация:

Итак, мы можем получить:

На самом деле мы не уделяем ему слишком много внимания в предыдущем, так что есть:

Ω называется сложностью модели, а сложность модели связана с количеством выборок N, пространством гипотез H(dvc) и ϵ. Ниже приведены их изображения:

Из этого рисунка можно сделать следующие выводы:Чем больше dvc, тем меньше Ein и больше Ω (комплекс). Чем меньше dvc, тем больше Ein и меньше Ω (простой). По мере увеличения dvc Eвых сначала уменьшается, а затем увеличивается.Так что дело не в том, что чем сложнее модель, тем лучше, на самом делеТеоретическая основа для переобучения, которая хорошо работает на тренировочном наборе, но плохо на тестовом наборе. Глядя на это, я знаю, что почти понимаю его, удобно!

Понимать практические проблемы линейной регрессии к линейной классификации

Линейная регрессия используется для подбора регрессии, можно ли ее использовать для классификации? Процесс обучения — это процесс нахождения g ≈ f, так что не беспокойтесь, потому что возможность регрессии доказана, и теперь нужно решить первую проблему: Eout ≈ Ein. Ошибка модели регрессии err = (y - y^)^2, а ошибка модели классификации не более чем 0 и 1.

Когда у = 1:

когда у = -1

Понятно, что ошибка регрессии больше, чем ошибка классификации. Оригинальные это:

Естественно по принципу связанного ВК. Конечно, верхняя граница более расслаблена, и эффект может быть не таким хорошим, как раньше, но вероятность того, что Eout ≈ Ein, гарантирована.