Должен знать: теоретические концепции информации в глубоком обучении

Нейронные сети

Автор: Абхишек Парбхакар

Перевод: Лао Ци

Рекомендации по книгам, связанным с этой статьей: "Подготовка данных и проектирование признаков"

Эта книга продана, купите: [Флагманский магазин Electronic Industry Press Tmall]


Теория информации — важная область, которая внесла значительный вклад в глубокое обучение и ИИ, хотя, конечно, многие люди знают о ней очень мало. Как вы знаете, краеугольными камнями глубокого обучения являются исчисление, теория вероятностей и статистика, а теорию информации можно рассматривать как сложный сплав между ними. Некоторые концепции ИИ исходят из теории информации или смежных областей, например:

  • Общие функции кросс-энтропии и потерь
  • Дерево решений на основе максимальной информационной энтропии
  • Алгоритм Витерби в НЛП и обработке речи
  • Концепции кодировщика в рекуррентных нейронных сетях и других моделях

Краткая история теории информации

克劳德 香农,信息论之父

В начале 20 века ученые и инженеры были озадачены вопросом: как количественно оценить информацию? Есть ли какой-то математический способ измерить количество информации? Например, следующие два предложения:

  • Бруно — собака.
  • Бруно — большая собака с коричневой шерстью.

Нетрудно заметить, что второе предложение говорит нам больше, что собака большая и у нее коричневая шерсть, а не просто говорит нам, что это собака. Как мы можем количественно определить разницу между этими двумя предложениями? Можем ли мы математически измерить, что второе предложение более информативно, чем первое?

Ученые озадачены этим вопросом. Измерение информации с точки зрения семантики или количества предложений только усложняет проблему. Позднее математик и инженер Клод Шеннон выдвинул идею «энтропии», навсегда изменившую наш мир и положившую начало «цифровому информационному веку».

Шеннон предположил, что «семантика данных не имеет отношения друг к другу», то есть тип и значение данных не имеют отношения к содержанию информации. Напротив, он количественно определяет информацию в соответствии с вероятностью распределение и «неопределенность». Шеннон также представил «бит» и смиренно благодарит своего коллегу Джона Тьюки. Эта революционная идея не только заложила основу теории информации, но и открыла новые возможности для развития в таких областях, как искусственный интеллект.

Ниже мы обсудим 4 популярных и широко используемых концепции теории информации, которые необходимо знать в области глубокого обучения и науки о данных:

энтропия

Также известна как информационная энтропия или энтропия Шеннона.

предварительное понимание

Энтропия — это мера неопределенности, представим два эксперимента:

  1. Подбросьте честную монету (P(H)=0,5) и посмотрите на результат, предполагая, что H
  2. Бросьте монету со смещением (P(H)=0,99) и наблюдайте за ее выходом, предполагая, что H

При сравнении двух экспериментов эксперимент 2 более предсказуем, чем эксперимент 1. Тогда мы говорим, что эксперимент 1 имеет большую неопределенность, чем эксперимент 2, и эта неопределенность в эксперименте измеряется энтропией.

Следовательно, если эксперимент имеет большую неопределенность, чем больше значение энтропии или чем более предсказуемы результаты эксперимента, тем меньше энтропия. Распределение вероятности эксперимента часто рассчитывается с использованием энтропии.

Результаты эксперимента являются определенными, то есть полностью предсказуемыми, что эквивалентно подбрасыванию монеты с P(H)=1, а энтропия в этот момент равна 0. Если эксперимент полностью случайный, например, игра в кости, он имеет наименьшую предсказуемость и наибольшую неопределенность, а его эксперимент имеет наибольшую энтропию.

Другое понимание энтропии заключается в получении информации путем наблюдения за средним значением случайных экспериментальных результатов. Информация, полученная из результата эксперимента, может быть определена как функция вероятности, чем меньше выход, тем больше информации получено.

Например, в детерминированном эксперименте мы все знаем результат, поэтому никакой новой информации не получается, а энтропия равна 0.

Математическое представление

X — дискретная звездная случайная величина, состояния которойx_1, ..., x_n, энтропия которого определяется как:

вp(x_i)является i-м выходом (состоянием) X

применение

  • Энтропию можно использовать в моделях дерева решений, где каждый шаг построения дерева использует энтропию для выбора функций.
  • Модель выбирается по принципу максимальной энтропии, то есть среди множества моделей-кандидатов лучшей является модель с наибольшей энтропией.

перекрестная энтропия

предварительное понимание

Кросс-энтропия используется для сравнения двух распределений вероятностей, благодаря чему можно узнать, насколько похожи эти два распределения.

Математическое представление

Предполагая два распределения вероятностей p и q, определите кросс-энтропию следующим образом:

применение

基于卷积神经网络的分类器通常使用softmax层作为最后一层,并使用交叉熵损失函数进行训练。

  • Функция кросс-энтропийных потерь широко используется в моделях классификации, таких как логистическая регрессия. Функция кросс-энтропийных потерь увеличивается по мере отклонения прогноза от истинного результата.
  • В глубоком обучении, таком как сверточные нейронные сети, конечный выходной слой softmax часто использует функцию кросс-энтропийных потерь.

взаимная информация

предварительное понимание

Взаимная информация используется для измерения взаимной независимости между двумя распределениями вероятностей или случайными величинами, благодаря чему мы можем узнать, сколько информации одной переменной связано с другой.

Взаимная информация показывает корреляцию между случайными величинами и носит более общий характер, чем простой коэффициент линейной корреляции.

Математическая формула

Взаимная информация двух дискретных случайных величин X и Y определяется как:

где p(x,y) — совместное распределение вероятностей X и Y, а p(x) и p(y) — предельные распределения вероятностей X и Y соответственно.

применение

在贝叶斯网络中,变量之间的关系结构可以通过互信息来确定。

  • Выбор признаков: в дополнение к коэффициентам корреляции также можно использовать взаимную информацию. Коэффициенты корреляции ограничены линейными корреляциями и неприменимы к нелинейным корреляциям, а взаимная информация — нет. Взаимная независимость нуля гарантирует, что случайные величины независимы, а нулевая корреляция — нет.
  • В байесовских сетях взаимная информация используется для изучения структуры взаимосвязи между двумя случайными величинами и для определения силы этой взаимосвязи.

KL-расхождение

Также называется относительной энтропией

предварительное понимание

Дивергенция KL - это еще один способ измерения сходства двух случайных распределений, он измеряет отклонение одного распределения от другого.

Предположим, что есть некоторые данные, истинное распределение которых равно P, но P неизвестно, поэтому мы выбираем новое распределение Q для аппроксимации данных. Поскольку Q является лишь приближением, оно строго равно P, и происходит некоторая потеря информации, которая измеряется дивергенцией KL.

Когда P выбрано для аппроксимации Q, расхождение KL между P и Q показывает, сколько информации теряется.

Математическая формула

KL-расхождение случайного распределения Q относительно случайного распределения определяется следующим образом:

применение

Дивергенция KL часто используется в неконтролируемых методах машинного обучения вариационных автокодировщиках.


Теория информации была впервые предложена математиком и инженером-электриком Клодом Шенноном в его основополагающей статье «Математическая теория связи», опубликованной в 1948 году.

Оригинальная ссылка:к data science.com/must-know-i…

Найдите общедоступный номер технических вопросов и ответов: класс Лао Ци

Ответ в публичном аккаунте:Лао Ципросмотреть все статьи, книги, курсы.

Если вы считаете, что это выглядит хорошо, пожалуйста, поставьте лайк и перешлите его