Потеря кросс-энтропии — одна из наиболее широко используемых функций потерь в глубоком обучении, и эта мощная функция потерь основана на концепции кросс-энтропии. Когда я начал использовать эту функцию потерь, мне было трудно понять интуицию, стоящую за ней. Погуглив различные материалы, я смог получить удовлетворительное понимание, и я хотел бы поделиться им в этом посте.
Для полного понимания нам нужно понимать понятия в следующем порядке: самоинформация, энтропия, кросс-энтропия и кросс-энтропийная потеря.
информация о себе
«Как вы были удивлены результатами»
Исход с низкой вероятностью более информативен, чем исход с высокой вероятностью. Теперь, если $y_i$ — это вероятность i-го исхода, то мы можем выразить информацию о себе s как:
энтропия
Теперь, когда я знаю самоинформацию о событии, приводящем к определенному результату, я хочу знать, сколько в среднем самоинформации приносит это событие. Средневзвешенное значение информации о себе s является интуитивно понятным. Вопрос теперь в том, какие веса выбрать?Поскольку я знаю вероятность каждого исхода, имеет смысл использовать вероятность в качестве веса, так как это вероятность того, что каждый исход должен произойти. Средневзвешенное значение информации о себе представляет собой энтропию (e), и если имеется n результатов, это можно записать как:
перекрестная энтропия
Теперь, если реальная вероятность каждого исхода равна $pi$, но кто-то оценивает вероятность как $qЧто делать с i$. В этом случае каждое событие будет начинаться с $pВозникает вероятность i$, но самоинформация в формуле должна быть изменена на $qi$ (потому что люди думают, что вероятность исхода равна $q_i$). Теперь в этом случае средневзвешенная информация о себе становится перекрестной энтропией с, которую можно записать как:
Кросс-энтропия всегда больше энтропии и совпадает с энтропией, только если $pi=qi$, вы можете посмотреть иллюстрацию по адресу https://www.desmos.com/calculator/zytm2sf56e, чтобы лучше понять
перекрестная потеря энтропии
Фиолетовая линия представляет площадь под синей кривой, предполагаемое распределение вероятностей (оранжевая линия), фактическое распределение вероятностей (красная линия).
На графике, который я упомянул выше, вы заметите, что кросс-энтропия увеличивается по мере того, как предполагаемое распределение вероятностей отклоняется от фактического/желаемого распределения вероятностей, и наоборот. Таким образом, мы можем сказать, что минимизация перекрестной энтропии приблизит нас к фактическому/желаемому распределению, чего мы и хотим. Вот почему мы пытаемся уменьшить перекрестную энтропию, чтобы наше предсказанное распределение вероятностей оказалось близким к фактическому распределению. Таким образом, мы получаем формулу для кросс-энтропийной потери как:
В случае задачи бинарной классификации только с двумя классами, которую мы называем бинарной кросс-энтропийной потерей, приведенная выше формула принимает вид:
Сводная станция блога о технологиях искусственного интеллекта Panchuang: http://docs.panchuang.net/PyTorch, официальная учебная станция на китайском языке: http://pytorch.panchuang.net/OpenCV, официальный китайский документ: http://woshicver.com/