Научить вас рисовать матрицу и вероятность в виде графика

машинное обучение

Что, если каждую матрицу и вероятность рассматривать как соответствующий «график»? Автор этой статьи проводит нас через этот простой и увлекательный процесс визуализации.

Выбрано из math3ma, автор: Алгебра, составлено сердцем машины, участие: Гао Сюань, Чжан Цянь.

Сегодня я хочу поделиться простой идеей, которая не является ни новой, ни причудливой. У многих людей даже есть эта идея. Но независимо от того, думали вы об этом или нет, я надеюсь, вы уделите несколько минут тому, чтобы пережить эту мысль вместе со мной.

Идея такова:

Идея очень простая, но очень практичная.

Во-первых, идея строго обобщена: каждой матрице соответствует взвешенный двудольный граф. Так называемый «график» относится к набору вершин (точек) и линий; «дихотомический» относится к двум разным типам/цветам точек; «взвешенный» относится к каждой линии, имеющей числовую метку.

Приведенный выше рисунок соответствует матрице M 3 × 23 × 2. Справа я нарисовал три зеленые точки, соответствующие трем строкам матрицы М, и две розовые точки, соответствующие двум столбцам матрицы М. Если значение в соответствующей матрице M отлично от нуля, проведите линию, соединяющую зеленую и розовую точки.

Например, между второй зеленой точкой и первой розовой точкой есть линия, потому что M_21=4, то есть значение второй строки и первого столбца матрицы M не равно 0. Также я отметил строку ненулевыми цифрами. И между первой зеленой точкой и второй розовой точкой нет прямой связи, потому что первая строка и второй столбец матрицы имеют нулевые значения.

Более подробное описание выглядит следующим образом:

Любая матрица M представляет собой массив чисел размером n на m. Конечно, это здравый смысл. Но такой массив можно рассматривать и как функцию M: X × Y → R, где X = {x_1,...,x_n} — множество из n элементов, Y = {y_1,...,y_m } , представляет собой набор из m элементов. На самом деле, если вы хотите описать матрицу M, вам нужно описать значение ij-го элемента. Другими словами, для каждой пары (i,j) необходимо указать действительное число M_ij. Вот что делает функция! Функция M: X×Y→R сопоставляет каждую пару (x_i,y_j) (если хотите, опустите буквы и трактуйте ее как (i,j)), которая является вещественным числом M(x_i,y_j). Таким образом, M(x_i,y_j) можно сократить как M_ij.

Видите, матрица — это функция.

Как упоминалось ранее, мы также считаем, что элементы X — это зеленые точки, а элементы Y — розовые точки. Тогда матрица M соответствует взвешенному двудольному графу следующим графическим образом: вершины графа имеют два разных цвета, обеспечиваемые X и Y, и между каждыми x_i и y_j существует связь, связь отмечена числом M_ij . Но если значение равно нулю, то это ребро опускается.

Каждой матрице соответствует граф.

Волшебство происходит, когда мы визуализируем матрицы таким образом. Например...

Умножение матриц — это прямая операция вдоль строки.

Имея две матрицы (графы) M: X×Y→R и N: Y×Z→R, мы можем выполнить операцию умножения, соединив их графики вместе и вдоль линий: вход в ij-й член MN , значение линии, соединяющей x_i с z_j, получается путем умножения и суммирования ребер вдоль x_i до z_j. Например:


Симметричная матрица соответствует симметричному графу.

Матрица симметрична, если она равна своей транспонированной. Эта симметрия часто получается путем отображения диагонали матрицы. Но теперь симметрию можно наблюдать по графику. Особенно для любой матрицы M следующий рисунок интуитивно объясняет, почему MM^⊤ и M^⊤M всегда симметричны!

Если все элементы матрицы отличны от нуля, она соответствует полному двудольному графу.

Если все элементы матрицы отличны от нуля, то в соответствующем графе нет пропущенных соединений. Это означает, что каждая точка в X связана с каждой точкой в ​​Y. Такой двудольный граф называется полным двудольным графом.

N-блочная матрица соответствует N независимым графам.

В частности, блочная матрица, полученная прямой суммой, соответствует несвязному графу. Операция прямой суммы двух матриц приводит к увеличению массива (аналогично операции векторной прямой суммы), то есть к большой блочной матрице со всеми нулевыми блоками. График блочной матрицы получается путем наложения графика исходной матрицы.

Мы могли бы еще поговорить о матрицах и графах, но я хочу подойти к ним с другой стороны. Вероятность хорошо подходит для нашего обсуждения матричных графов. Это достигается за счет еще одного забавного факта: ‍

Например:

Такая карта распределения вероятностей позволяет нам лучше анализировать.

совместная вероятность

Совместную вероятность можно получить, соединив линии на архитектурной диаграмме: вероятность (x_i,y_j) — это метка линии, соединяющей две точки x,y.

Предельная вероятность

Предельная вероятностьполучается путем суммирования по строкам/столбцам матрицы (эквивалентно изображению выше). Например, вероятность x_1 p(x_1)=p(x_1,y_1)+p(x_1,y_2)=1/8+0, что является суммой первой строки. Точно так же вероятность y_2 равна p(y_2)=p(x_1,y_2)+p(x_2,y_2)+p(x_3,y_2)=0+1/8+1/4, что является суммой второго столбец.

На рисунке вероятность ребра x_i представляет собой сумму всех соединительных линий с x_i в качестве вершины. Точно так же вероятность ребра y_j представляет собой сумму всех соединенных линий с y_j в качестве вершины.

Условная возможность

Условная возможностьполучается путем деления совместной вероятности на предельную вероятность. Например, вероятность x_3 при условии y_2 равна p(x_3|y_2)=p(x_3,y_2)/p(y_2). Как видно из рисунка, это получается путем деления линии, соединяющей x_3 и y_2, на сумму всех линий, соединяющих y_2. Аналогично, условная вероятность x_j в y_i представляет собой значение линии, соединяющей две точки, деленное на сумму всех линий, соединяющих x_j.

Это просто, верно?

Обоснование здесь не сложное, просто иногда полезно увидеть старые идеи в новом свете.

матрица отношений

В конце этой статьи еще один простой и интересный факт: матричные операции имеют смысл на коммуникативных кольцах. Не так, как R или C и т. д. Умножение матриц не требует даже отрицательных чисел: матричные операции имеют смысл на коммутативных полукольцах! (Полукольцо — это кольцо, у которого нет противоположностей.)

Я думаю, что это нормально, потому что набор из двух элементов Z_2 = {0,1} образует полукольцо путем сложения и умножения на следующей диаграмме:


Почему это так хорошо? Потому что матрица M:X×Y→Z_2 эквивалентна «отношению». «Отношение» — это имя подмножества R декартова произведения X×Y. Другими словами, каждая матрица со значениями Z_2 определяет «отношение», а каждое отношение определяет матрицу со значениями Z_2: M_ij=1 тогда и только тогда, когда (x_i,y_j) являются элементами подмножества R, в противном случае M_ij=0.

Матричный график в Z_2 точно такой же, как и график, рассмотренный выше, за исключением того, что теперь все провода либо 0, либо 1. Если вес равен 0, как и раньше, мы не рисуем линию.

(Кстати, теперь вы можете спросить: «Поскольку каждое «отношение» соответствует матрице в Z_2, как выглядит матрица, соответствующая «отношению эквивалентности»?» Я отвлекся....)

Изменив базовое (половинчатое) кольцо с R на Z_2, мы изменили способ интерпретации весов. Например, в приведенном выше вероятностном сценарии мы могли бы спросить: «Какова вероятность перехода от x_1 к y_1?» Ответ выводится из веса соответствующего ребра, который в данном случае равен 12,5%. Или, когда матрица принимает значения в Z_2, возникает вопрос: «Возможно ли перейти от x_1 к y_1?» Да, если строка отмечена 1, и нет, если она отмечена 0. (Эта идея объяснялась много раз).

Важно отметить, что комбинация «отношений» представляет собой умножение матриц с использованием приведенного выше алгоритма Z_2. Другими словами, для любых двух отношений R⊂X×Y и S⊂Y×Z существует новое отношение SR⊂X×Z, включающее все (x,z), хотя бы одно y∈Y, где (x , y) ∈ R, (y, z) ∈ S. Это новое отношение определяется матричным произведением, представляющим R и S.

Этот небольшой факт о матрицах/отношениях определенно является одним из моих любимых математических фактов. Одна из причин заключается в том, что из-за категории конечных множеств «отношения» очень похожи на категорию конечных векторных пространств и линейных отображений. На самом деле, это больше похоже на конечное измерениегильбертово пространствокатегория. Это означает, что многие, казалось бы, не связанные между собой идеи вдруг становятся близкими. Эти связи могут быть более точными, история, которую часто обсуждают в кругах теории категорий.


Оригинальная ссылка:woohoo.math3ma.com/blog/pier-daily…