Как отличить генеративную и дискриминативную модели?

Генеративные и дискриминационные модели

простая концепция

Целью обучения с учителем является изучение модели, с помощью которой можно получить заданный результат для прогнозирования категории данных. Эту модель можно назватьclassifier. Функция, соответствующая этой модели, обычно Y=f(X) или P(Y|X) (В математической статистике случайной величиной является, пример).

для решающей функции Y=f(X) тип, порог должен быть установлен threshold используется для суждения.

Для условных распределений вероятностей P(Y|X) , так как вычисляются вероятности, принадлежащие всем типам, выбирается тот, который имеет наибольшую вероятность. Завершите приговор.

Отношения между ними:

По сути, это одно и то же.

Когда сеть используется Y=f(X) В виде MSE , целевая функция позволяет сети выводить истинные метки (обычно с использованием $one\_hot$ кодировка) ближайший, что на самом деле является разновидностью мышления максимального правдоподобия. для данного (X,Y) , обучающая сеть делает свой вывод и реальную меткуПодход (максимизировать вероятность его появления), то есть максимизировать P(Y|X)=1 или P(Y|X)=0 (здесь вроде правильнопроисходитьДругими словами, какое событие произойдет, его соответствующая вероятность достигнет экстремального значения. ), поэтому вывод здесь на самом деле P(Y|X) .

Конечно, при приеме P(Y|X) , просто используйте его напрямуюПриродафункция. . . .

Генерация и дискриминация методов

Обучение с учителем делится на генеративный подход и дискриминативный подход. Установленными моделями являются генеративная модель и дискриминативная модель.

дискриминантная модель

Дискриминантная функция получается путем прямого обучения по данным ( Y=f(X) или P(Y|X) ). Типичные дискриминантные модели в основном включают в себя: K ближайших соседей, машины опорных векторов и деревья решений. . . Дискриминационная модель фокусируется только на том, как классифицировать (как отображать и различать заданное пространство данных и находить оптимальную поверхность классификации). Модель в основном отражает различия между разными категориями. Дискриминантная модель напрямую моделирует прогноз, который является эффективным и действенным.

генеративная модель

Изучение совместного распределения плотности вероятности на основе данных P(X,Y) , (функция распределения плотности вероятности используется для выборки, чтобы генерировать больше данных для набора данных), а затем рассчитывается по формуле Байеса P(Y|X) В качестве прогностической модели, т.е. генеративной модели: P(Y|X)=P(X,Y)/P(X) . Генеративная модель требует бесконечного числа выборок для достижения теоретических предсказаний, потому что для P(X) , требует много образцов, чтобы сделать его более надежным. Типичные генеративные модели включают наивную байесовскую модель, скрытую марковскую модель и т. д. Генеративные модели фокусируются на самих данных, в отличие от дискриминационных моделей, которые фокусируются на оптимальном интерфейсе классификации. Генеративные модели также можно использовать в моделях со скрытыми слоями, где нельзя использовать дискриминационные модели.

Соответствие между генеративными моделями и дискриминационными моделями в глубоких сетях

Глубокие сети могут моделировать многие функции распределения вероятностей.

дискриминантная модельВыход сети классификации соответствует P(Y|X) . Предположим, что параметры сети $\phi$ , обученной по принципу максимального правдоподобия, вход сети, выход сети P(Y|X) . Записано в виде математического выражения: $P(Y|X)=f_\phi(X)$ .

генеративная модельПодгонка сети P(X,Y) , совместную функцию распределения плотности вероятности, а затем использовать P(Y|X)=P(X,Y)/P(X) , судить. Генеративная модель здесь — очень узкое понятие! ! ! (Потому что это только один случай, когда генеративная модель решает классификацию в контролируемом обучении). На практике Генеративная модель — это понятие в статистике вероятностей и машинном обучении, которое относится к серии моделей, используемых для случайной генерации наблюдаемых данных. У генеративных моделей есть две основные функции: одна — изучить распределение вероятностей, то есть решить проблему оценки плотности, а другая — генерировать данные. Для обучения с учителем типичными генеративными моделями являются: Наивный Байес, Скрытая марковская модель, Смешанная модель Гаусса. Эти модели правильные P(X,Y) Смоделируйте напрямую и, наконец, используйте байесовский вывод, чтобы получить категорию, к которой принадлежат данные. Генеративная модель в широком смысле заключается в моделировании самих данных для создания новых данных (GAN, VAE и т. д.). Например, генерация изображений в VAE осуществляется в виде переменных скрытого слоя: $P(X,Z)=P(Z)\times P(X|Z)$ . Приближение Монте-Карло $E[f(X)]=\int f(x)p(x)dx \approx \frac{1}{S}\sum_{s=1}^{S}f(x_s)$ , и, наконец, получить $P(X) \approx P(X|Z)$ ,один из нихот выборки один раз. Генеративные модели используются для генерации данных, особенно для генерации изображений, так где же это проявляется? Если сеть можетмодель, получи P(X) , и $P(X) \approx P_{gt}(X)$ , то мы можем использовать функцию распределения вероятностей для выборки, чтобы получить новые данные (обратите внимание, что это происходит, когда метка не добавляется), тогда мы получаем генеративную модель P(X) .

Моделирование вероятности с помощью глубоких сетей: Вышеуказанные два являются установлением вероятности глубокой сетью, но следует отметить, что выход сети не обязательно P(X )или P(Y|X) . Например для P(Y|X) Когда это гауссово, сеть может быть правильной $(\mu,\sigma)$ Вывод. (Поймите, что объект моделирования сети и вывод сети разные!!! Не путайте!!) И данные в сети логически передаются при выводе, например, априорная вероятность, последний Формирование тестовой вероятности и др.

Далее используются примеры в VAE для объяснения моделирования вероятности глубокими сетями:

VAE против истинной апостериорной вероятности P(Z|X) Подгонка выполняется MLP, а выход сети $(\mu_1,\sigma_1)$ , сетевая модель $Q(Z|X)=N(\mu_1,\sigma_1)$ , выход сети. Модель здесь называется распознаванием. модель. Вторая половина сети — это моделирование P(X|Z), а выход сети — $(\mu_2)$ ,и $\sigma_2$ Вручную установленная на небольшое значение функция распределения вероятностей окончательной модели сети $P(X|Z)=N(\mu_2,\sigma_2)$ . Вход в сеть есть,ивероятностно выбирается из выходных данных предыдущего распознавания. (Это можно понять непосредственно как из P(Z) можно примерить). Следовательно, конечная выходная логика сети P(Z)P(X|Z)=P(X,Z) . Если окончательный результат выбирается только один раз (y выбирается только один раз для Z, поскольку окончательный результат зависит от выборки Z), вы получите $P(X)\approx P(X|Z)$ . из-за того, когда $\sigma_2$ Когда значение мало, выход сети $\mu_2$ , в это время многие образцы отбираются очень близко $\mu_2$ , поэтому можно считать, что выход сети равен X. больше нет права P(X) Выборка (в настоящее время выборка невозможна?? Потому что выборка должна знать конкретное выражение??). Окончательный вывод сети является приблизительным, сетевая модель P(X|Z) . Выше приведен конкретный анализ. Смотрите мой следующий пост в блоге о VAE.