Как отличить генеративную и дискриминативную модели?

глубокое обучение

Генеративные и дискриминационные модели

простая концепция

Целью обучения с учителем является изучение модели, с помощью которой можно получить заданный результат для прогнозирования категории данных. Эту модель можно назватьclassifier. Функция, соответствующая этой модели, обычноY=f(X)илиP(Y|X)(В математической статистике случайной величиной являетсяx, примерX).

для решающей функцииY=f(X)тип, порог должен быть установленthresholdиспользуется для суждения.

Для условных распределений вероятностейP(Y|X), так как вычисляются вероятности, принадлежащие всем типам, выбирается тот, который имеет наибольшую вероятность. Завершите приговор.

Отношения между ними:

По сути, это одно и то же.

Когда сеть используетсяY=f(X)В видеMSE, целевая функция позволяет сети выводить истинные метки (обычно с использованиемone\_hotкодировка) ближайшийY, что на самом деле является разновидностью мышления максимального правдоподобия. для данного(X,Y), обучающая сеть делает свой вывод и реальную меткуYПодход (максимизировать вероятность его появления), то есть максимизироватьP(Y|X)=1илиP(Y|X)=0(здесь вроде правильнопроисходитьДругими словами, какое событие произойдет, его соответствующая вероятность достигнет экстремального значения. ), поэтому вывод здесь на самом делеP(Y|X).

Конечно, при приемеP(Y|X), просто используйте его напрямуюПриродафункция. . . .

Генерация и дискриминация методов

  Обучение с учителем делится на генеративный подход и дискриминативный подход. Установленными моделями являются генеративная модель и дискриминативная модель.

дискриминантная модель

   Дискриминантная функция получается путем прямого обучения по данным (Y=f(X)илиP(Y|X)). Типичные дискриминантные модели в основном включают в себя: K ближайших соседей, машины опорных векторов и деревья решений. . . Дискриминационная модель фокусируется только на том, как классифицировать (как отображать и различать заданное пространство данных и находить оптимальную поверхность классификации). Модель в основном отражает различия между разными категориями. Дискриминантная модель напрямую моделирует прогноз, который является эффективным и действенным.

генеративная модель

   Изучение совместного распределения плотности вероятности на основе данныхP(X,Y), (функция распределения плотности вероятности используется для выборки, чтобы генерировать больше данных для набора данных), а затем рассчитывается по формуле БайесаP(Y|X)В качестве прогностической модели, т.е. генеративной модели:P(Y|X)=P(X,Y)/P(X). Генеративная модель требует бесконечного числа выборок для достижения теоретических предсказаний, потому что дляP(X), требует много образцов, чтобы сделать его более надежным. Типичные генеративные модели включают наивную байесовскую модель, скрытую марковскую модель и т. д. Генеративные модели фокусируются на самих данных, в отличие от дискриминационных моделей, которые фокусируются на оптимальном интерфейсе классификации. Генеративные модели также можно использовать в моделях со скрытыми слоями, где нельзя использовать дискриминационные модели.

Соответствие между генеративными моделями и дискриминационными моделями в глубоких сетях

Глубокие сети могут моделировать многие функции распределения вероятностей.

дискриминантная модельВыход сети классификации    соответствуетP(Y|X). Предположим, что параметры сети\phi, обученной по принципу максимального правдоподобия, вход сетиX, выход сетиP(Y|X). Записано в виде математического выражения:P(Y|X)=f_\phi(X).

генеративная модельПодгонка сети   P(X,Y), совместную функцию распределения плотности вероятности, а затем использоватьP(Y|X)=P(X,Y)/P(X), судить. Генеративная модель здесь — очень узкое понятие! ! ! (Потому что это только один случай, когда генеративная модель решает классификацию в контролируемом обучении). На практике Генеративная модель — это понятие в статистике вероятностей и машинном обучении, которое относится к серии моделей, используемых для случайной генерации наблюдаемых данных. У генеративных моделей есть две основные функции: одна — изучить распределение вероятностей, то есть решить проблему оценки плотности, а другая — генерировать данные. Для обучения с учителем типичными генеративными моделями являются: Наивный Байес, Скрытая марковская модель, Смешанная модель Гаусса. Эти модели правильныеP(X,Y)Смоделируйте напрямую и, наконец, используйте байесовский вывод, чтобы получить категорию, к которой принадлежат данные. Генеративная модель в широком смысле заключается в моделировании самих данных для создания новых данных (GAN, VAE и т. д.). Например, генерация изображений в VAE осуществляется в виде переменных скрытого слоя:P(X,Z)=P(Z)\times P(X|Z). Приближение Монте-КарлоE[f(X)]=\int f(x)p(x)dx \approx \frac{1}{S}\sum_{s=1}^{S}f(x_s), и, наконец, получитьP(X) \approx P(X|Z),один из нихZот выборки один раз. Генеративные модели используются для генерации данных, особенно для генерации изображений, так где же это проявляется? Если сеть можетXмодель, получиP(X), иP(X) \approx P_{gt}(X), то мы можем использовать функцию распределения вероятностей для выборки, чтобы получить новые данные (обратите внимание, что это происходит, когда метка не добавляется), тогда мы получаем генеративную модельP(X).

Моделирование вероятности с помощью глубоких сетей: Вышеуказанные два являются установлением вероятности глубокой сетью, но следует отметить, что выход сети не обязательноP(X)илиP(Y|X). Например дляP(Y|X)Когда это гауссово, сеть может быть правильной(\mu,\sigma)Вывод. (Поймите, что объект моделирования сети и вывод сети разные!!! Не путайте!!) И данные в сети логически передаются при выводе, например, априорная вероятность, последний Формирование тестовой вероятности и др.

Далее используются примеры в VAE для объяснения моделирования вероятности глубокими сетями:

VAE против истинной апостериорной вероятностиP(Z|X)Подгонка выполняется MLP, а выход сети(\mu_1,\sigma_1), сетевая модельQ(Z|X)=N(\mu_1,\sigma_1), выход сетиX. Модель здесь называется распознаванием. модель. Вторая половина сети — это моделирование P(X|Z), а выход сети —(\mu_2)\sigma_2Вручную установленная на небольшое значение функция распределения вероятностей окончательной модели сетиP(X|Z)=N(\mu_2,\sigma_2). Вход в сеть естьZZвероятностно выбирается из выходных данных предыдущего распознавания. (Это можно понять непосредственно как изP(Z)можно примерить). Следовательно, конечная выходная логика сетиP(Z)P(X|Z)=P(X,Z). Если окончательный результат выбирается только один раз (y выбирается только один раз для Z, поскольку окончательный результат зависит от выборки Z), вы получитеP(X)\approx P(X|Z). из-за того, когда\sigma_2Когда значение мало, выход сети\mu_2, в это время многие образцы отбираются очень близко\mu_2, поэтому можно считать, что выход сети равен X. больше нет праваP(X)Выборка (в настоящее время выборка невозможна?? Потому что выборка должна знать конкретное выражение??). Окончательный вывод сети является приблизительнымX, сетевая модельP(X|Z). Выше приведен конкретный анализ. Смотрите мой следующий пост в блоге о VAE.

В моем обсуждении будет много проблем, надеюсь вы укажете на них и я постараюсь исправить! ! ! !

references

[Подробное объяснение продвинутой модели глубокого обучения] Вероятностная графическая модель / глубокая генеративная модель / глубокое обучение с подкреплением, учитель Фудан Цю Сипэн, совместное использование учебника «Нейронная сеть и глубокое обучение» 05

[Основы машинного обучения] Генеративные модели и дискриминационные модели

Генеративные и дискриминационные модели

В чем разница между «моделью принятия решений» и «генеративной моделью» в машинном обучении?