Мало знаний, большой вызов! Эта статья участвует в "Необходимые знания для программистов«Творческая деятельность.
Сегодня мы выведем формулу функции потерь кросс-энтропии двумя способами и объясним, почему кросс-энтропию можно использовать для функции потерь задачи классификации в процессе вывода.
оценка максимального правдоподобия
В статистике,оценка максимального правдоподобия(Английский:Maximum Likelihood Estimation, сокращенно MLE), также известный какоценка максимального правдоподобия, — это метод, используемый для оценки параметров вероятностной модели.
KL-расхождение
Дивергенция KL была введена ранее для измерения расстояния между двумя распределениями вероятностей.
используется для измеренияирасстояние между. Тогда для вероятности множественного распределения
- Указывает, что нейронная сеть соответствует модели, предсказывающей распределение данных, среди которых– параметры распределения, гдеПредставляет i-й образец, который может быть картинкой или образцом,– параметры нейронной сети,Именно нейронная сеть выдает угаданный результат
- представляет истинное распределение данных
Упростите дальше, чтобы получить
это иЭто не имеет значения, поэтому на это можно не обращать внимания. Итак, в конце концов, это упрощается до
Это получено из расхождения KL
максимальная вероятность
Это сделать вывод о распределении вероятностей данных, наблюдая за результатами.Предполагая, что есть запечатанный ящик, мы знаем только, что в нем есть определенное количество шаров, включая красные шары и синие шары, но мы не знаем соотношение красных и синих шаров.Возьмите шар из середины, но вы можете взять только один шар за раз и положить его обратно в коробку после наблюдения.Мы можем взять из коробки определенное количество раз, а затем сделать вывод соотношение красного шара и синего шара в коробке, наблюдая соотношение красного шара и синего шара Это вероятность.
Предположим, что наблюдениеЕсли в испытании монеты выпадает орел или решка, а шарик красный или синий, мы наблюдаем совместную вероятность исхода, а затем нам нужно найти параметр распределения вероятностей, максимизирующий вероятность этого наблюдения.
Мы можем использовать нейронные сети для моделирования вероятностных распределений, где параметрыОпределите распределение вероятностей прогнозов модели, предполагая, что это проблема бинарной классификации, которую можно рассматривать как прогнозы собаки и кошки.
Мы можем предсказать результат с помощью модели нейронной сети.заменить параметр, поскольку это распределение Бернулли 0 1, его можно записать в следующей форме, а формулу кросс-энтропии можно вывести из вероятности.