Начните рассматривать основы алгоритмов ИИ-математики, в основном в трех аспектах:

Линейная алгебра
теория вероятности
исчисление

Справочное содержание выглядит следующим образом:

«Глубокое обучение»
GitHub.com/Sour Vinegar Jar 90/D О…
GitHub.com/Sarah’s Sand/Re…

Эта статья является первой, содержание части линейной алгебры, в основном для сравнения учебных заметок базовой части.

1. Линейная алгебра

1.1 Векторы и матрицы

1.1.1 Связь между скалярами, векторами, матрицами и тензорами

скаляр (скаляр)

Скаляр представляет собой одно число, в отличие от большинства других объектов, изучаемых в линейной алгебре (обычно это массив чисел). Мы обозначаем скаляры курсивом. Скалярам обычно дают имена переменных в нижнем регистре. Обычно понятно, к какому типу принадлежит скаляр, например, при определении вещественного скаляра вы скажете «пусть $s\in R$ представляет собой наклон линии».

вектор

Вектор представляет собой упорядоченный набор чисел. Индексируя в порядке, мы можем определить каждый отдельный номер. Обычно мы даем имена переменных вектора жирным шрифтом в нижнем регистре, например, xx. Элементы в векторе могут быть представлены курсивом с нижним индексом. вектор $X$ Первый элемент $X_1$ , второй элемент $X_2$ , и так далее. Мы также отмечаем тип (действительный, мнимый и т. д.) элементов, хранящихся в векторе.

Ниже показан вектор Вектор можно рассматривать как точку в пространстве, то есть каждый элемент может представлять координату на другой координатной оси.

x = \left[ \begin{matrix} x_1 \\ x_2 \\ x_3 \\ \cdots \\ x_n \end{matrix} \right]

матрица

Матрица — это набор объектов с одинаковыми характеристиками и широтой, представленный в виде двумерной таблицы данных. Смысл в том, что объект представлен в виде строки в матрице, признак представлен в виде столбца в матрице, и каждый признак имеет числовое значение. Обычно матрицам даются имена переменных, выделенные жирным шрифтом в верхнем регистре, например $A$ .

Пример представления матрицы показан ниже:

A = \left[ \begin{matrix} A_{1,1} & A_{1,2} \\ A_{2,1} & A_{2,2} \\ \end{matrix} \right]

ТранспонироватьЭто одна из важных операций матрицы.Его транспонирование является зеркальным отражением диагональной оси.Эта диагональная линия из левого верхнего угла в правый нижний угол называетсяглавная диагональ, определяемый следующим образом:

(A^T){i,j} = A_{j,i}

Пример операции выглядит следующим образом:

A = \left[ \begin{matrix} A_{1,1} & A_{1,2} \\ A_{2,1} & A_{2,2} \\ A_{3,1} & A_{3,2} \end{matrix} \right] ==> A^T = \left[ \begin{matrix} A_{1,1} & A_{2,1} & A_{3, 1} \\ A_{1,2} & A_{2,2} & A_{3,2}\\ \end{matrix} \right]

Из $3\times 2$ Матрица становится $2\times 3$ матрица.

Тензор (тензор)

В некоторых случаях мы будем обсуждать массивы с координатами более чем в двух измерениях. В общем случае элементы массива распределены по регулярной сетке координат в нескольких измерениях, которую мы называем тензором. использовать $A$ для представления тензора «А». Тензор $A$ Средние координаты $(i,j,k)$ элементы $A_{(i,j,k)}$ .

Отношения между четырьмя

(из Deep Learning 500 Questions Chapter 1 Mathematical Fundamentals)

Скаляр — это тензор ранга 0, а вектор — это тензор ранга 1. Пример:
Скаляр просто знает длину палки, но не знает, куда она указывает.
Вектор не только знает длину палки, но также знает, направлена ли палка вперед или назад.
Тензор не только знает длину палки, но также знает, направлена ли палка вперед или назад, и насколько палочка отклонена вверх/вниз и влево/вправо.

1.1.2 Разница между тензорами и матрицами

Алгебраически говоря, матрица — это обобщение вектора. Вектор можно рассматривать как одномерную «таблицу» (то есть компоненты расположены в ряд по порядку), а матрицу — как двумерную «таблицу» (компоненты расположены по вертикали и горизонтали). позиции), то $n$ Тензор ранга называется $n$ «Таблица» размеров. Строгое определение тензора состоит в том, чтобы использовать для его описания линейную карту.
Говоря геометрически, матрица — это реальная геометрическая величина, то есть нечто, что не меняется при преобразовании координат системы отсчета. Векторы также обладают этим свойством.
Тензоры могут быть представлены в виде матриц 3×3.
Числа, представляющие скаляры, и трехмерные массивы, представляющие векторы, также можно рассматривать как матрицы 1×1 и 1×3 соответственно.

1.1.3 Результаты умножения матриц и векторов

Если используется соглашение о суммировании Эйнштейна, матрица $A$ , $B$ Умножьте, чтобы получить матрицу $C$ Его можно выразить следующей формулой: $AB = C ==> a_{ik}*b_{kj}=c_{ij}$

в, $a_{ik}$ , $b_{kj}$ , $c_{ij}$ соответственно представляют матрицу $A, B, C$ Элементы, $k$ Появляется дважды, это фиктивная переменная (Dummy Variables), указывающая, что параметр проходится и суммируется.

Пример:

A= \left[ \begin{matrix} A_{1,1} & A_{1,2} \\ A_{2,1} & A_{2,2} \\ \end{matrix} \right] \ B = \left[ \begin{matrix} B_{1,1} & B_{1,2} \\ B_{2,1} & B_{2,2} \\ \end{matrix} \right] \\ A \times B = C = \left[ \begin{matrix} A_{1,1}\times B_{1,1}+A_{1,2}\times B_{2,1} & A_{1,1}\times B_{1,2}+A_{1,2}\times B_{2,2} \\ A_{2,1}\times B_{1,1}+A_{2,2}\times B_{2,1} & A_{2,1}\times B_{1,2}+A_{2,2}\times B_{2,2} \\ \end{matrix} \right] = \left[ \begin{matrix} C_{1,1} & C_{1,2} \\ C_{2,1} & C_{2,2} \\ \end{matrix} \right]

Таким образом, умножение матриц имеет предпосылку,Количество столбцов матрицы A должно быть равно количеству строк матрицы B, то есть если размерность A равна $m\times n$ , размер B должен быть $n \times p$ , размер матрицы C, полученной умножением, равен $m\times p$ .

Существует также матричное умножение, которое заключается в умножении соответствующих элементов матрицы, что называетсяПродукт, соответствующий элементу, или продукт Адамара, обозначаемый как A ⊙ B

А умножение матриц и векторов можно рассматривать как частный случай умножения матриц, например: матрица $B$ Является $n \times 1$ матрица.

Матричный продукт удовлетворяет этим законам:

Соблюдайте коэффициент распределения: A(B+C) = AB + AC
Соблюдайте закон ассоциативности: A(BC) = (AB)C

ноНе подчиняясь коммутативному закону, то есть АВ не обязательно равно ВА.

Произведение матриц удовлетворяет: $(АВ)^Т = А^ТБ^Т$

Скалярное произведение двух векторов x и y одинаковой размерности можно рассматривать как матричное произведение — $x^Ty$ . То есть матричное произведение может быть $C=AB$ средний расчет $C_{i,j}$ Шаги рассматриваются как скалярное произведение между строкой i матрицы A и столбцом j матрицы B . Ведь каждая строка или столбец матрицы — это вектор.

Скалярное произведение векторов коммутативно:

x^Ty = y^Tx

Доказательство в основном основано на:

Скалярное произведение двух векторов является скаляром
Транспонирование скаляра также само по себе

Итак, есть:

x^Ty = (x^Ty)^T = xy^T

1.1.4 Тождественные и обратные матрицы

Матрица идентичности определяется следующим образом:Единичная матрица представлена I, и любой вектор, умноженный на единичную матрицу, не изменится,который:

\forall x \in R^n, I_n x = x \tag{1-1-8}

Структура единичной матрицы очень проста, то есть главная диагональ равна 1, а остальные позиции равны 0, как показано на следующем рисунке. $I_3$ :

\left[ \begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix} \right]

А обратная матрица записывается как $A^{-1}$ , который удовлетворяет следующим условиям:

A^{-1}A=I_n

1.1.5 Системы линейных уравнений и линейных корреляций

Теперь у нас есть линейная система уравнений, которая выглядит так:

Ax = b

в, $A\in R^{m\times n}$ известная матрица, $b\in R^m$ — известный вектор, то $x\in R^n$ - неизвестный вектор, для которого нужно решить.

Здесь в соответствии с умножением матриц (x эквивалентен a $n\times 1$ матрица), приведенную выше формулу можно расширить:

A_{1,:}x = b_1 ==> A_{1,1}x_1 + A_{1,2}x_2+\cdots+A_{1,n}x_n = b_1 \\ A_{2,:}x = b_2 ==> A_{2,1}x_1 + A_{2,2}x_2+\cdots+A_{2,n}x_n = b_2 \\ \cdots \\ A_{m,:}x = b_m ==> A_{m,1}x_1 + A_{m,2}x_2+\cdots+A_{m,n}x_n = b_m \\

После того, как мы определим обратную матрицу, мы можем решить ее следующим образом:

Ax=b\\ A^{-1}Ax = A^{-1}b\\ I_nx = A^{-1}b \\ x = A^{-1}b

Таким образом, ключ к решению заключается в том, существует ли обратная матрица и ее нахождение.

Когда обратная матрица $A^{-1}$ существует, то для каждого вектора b должно быть ровно одно решение.

А вот для системы уравнений может не быть решения при некоторых значениях вектора b, или решений бесконечно много, решения не более одного, а есть конечные решения, например x и y оба решение уравнений, есть:

z = \alpha x + (1-\alpha)y

в, $\alpha$ любое действительное число, то z также является решением системы уравнений, и эта комбинация бесконечна, поэтому конечного решения (более 1) не существует.

Определите, имеет ли Ax=b решение,Ключ в том, чтобы определить, находится ли вектор b в порождающем подпространстве вектора-столбца A., это специальное порождающее подпространство называется пространством столбцов A или диапазоном A.

Линейная комбинация набора векторов относится к сумме каждого вектора, умноженной на соответствующий скалярный коэффициент, то есть $\sum_i c_i v^{(i)}$

Порождающее подпространство набора векторов — это множество точек, до которых можно добраться путем линейной комбинации исходных векторов.

Итак, для того, чтобы вышеизложенное выполнялось,должно позволить пространству столбца A составлять весь $R^m$ космос, если точка в этом пространстве не находится в пространстве столбца A, то соответствующее b сделает уравнение неразрешимым. И чтобы оно выполнялось, ** должно удовлетворять неравенству $n\ge m$ **.

Но это неравенство является лишь необходимым, а не достаточным условием того, что уравнение имеет решение для каждого b. Поскольку существует ситуация, когда некоторые векторы-столбцы могут быть избыточными, например $2\times 2$ Если два вектора-столбца одинаковы, то пространство столбцов матрицы совпадает с одним из ее векторов-столбцов в качестве пространства-столбца матрицы, что не удовлетворяет покрытию всей матрицы. $R^2$ космос.

Эта избыточность также называетсяЛинейная корреляция,иНабор векторов называется линейно независимым, если любой вектор в наборе не может быть представлен в виде линейной комбинации других векторов..

так,Если пространство столбца матрицы должно покрывать все $R^m$ , то матрица должна содержать не менее набора из m линейно независимых векторов, что является необходимым и достаточным условием того, чтобы каждое b имело решение.

Кроме того, чтобысделать матрицу обратимой, вы также должны убедиться, что Ax=b имеет не более одного решения для каждого значения b, что должно гарантировать, что матрица имеет не более m векторов-столбцов, иначе уравнение имеет более одного решения.

Подводить итоги,Тогда матрица должна быть квадратной, то есть m = n, и все векторы-столбцы линейно независимы.. Квадратная матрица, все векторы-столбцы которой линейно независимы, называетсястранный.

Если A не квадратная матрица или сингулярная квадратная матрица, может быть решение, но оно не может быть решено с помощью обратной матрицы.

1.1.6 Индукция норм векторов и матриц

норма вектора

Обычно размер вектора измеряетсянормаизмерять, по форме $L^P$ Норма определяется следующим образом:

L_p=\Vert\vec{x}\Vert_p=\sqrt[p]{\sum_{i=1}^{N}|{x_i}|^p}

здесь $p\ge 1$ .

Норма — это функция, которая отображает вектор в неотрицательное число Интуитивно понятно, что норма вектора x измеряет расстояние от начала координат до точки x.

Нормой называется любая функция, удовлетворяющая следующим свойствам:

f(x)=0=>x=0 \\ f(x+y)\le f(x)+f(y)(треугольное неравенство)\\ \forall \alpha \in R, f(\alpha x) = |\альфа|f(x)

Определите вектор как: $\vec{a}=[-5, 6, 8, -10]$ . Любой набор векторов устанавливается в $\vec{x}=(x_1,x_2,...,x_N)$ . Различные нормальные решения следующие:

1 норма вектора: сумма абсолютных значений элементов вектора, указанного выше вектора $\vec{a}$ Результат 1 нормы: x = |-5|+|6|+|8|+|-10| = 29.

\Vert\vec{x}\Vert_1=\sum_{i=1}^N\vert{x_i}\vert

2-норма (евклидова норма) вектора: квадратный корень из суммы квадратов каждого элемента вектора, выше $\vec{a}$ Результат 2-нормы: $x=\sqrt{(-5)^2+(6)^2+(8)^2+(-10)^2}15$ .

\Vert\vec{x}\Vert_2=\sqrt{\sum_{i=1}^N{\vert{x_i}\vert}^2}

Отрицательная норма бесконечности вектора: наименьшее из абсолютных значений всех элементов вектора: указанный выше вектор $\vec{a}$ Отрицательная норма бесконечности , результат: 5.

\Vert\vec{x}\Vert_{-\infty}=\min{|{x_i}|}

Положительная норма бесконечности вектора: наибольшее из абсолютных значений всех элементов вектора: указанный выше вектор $\vec{a}$ Результат положительной нормы бесконечности: 10.

\Vert\vec{x}\Vert_{+\infty}=\max{|{x_i}|}

норма матрицы

Определите матрицу.

A = \left[ \begin{matrix} -1 & 2 & -3 \\ 4 & -6 & 6 \\ \end{matrix} \right]

Произвольная матрица определяется как: $A_{m\times n}$ , элементы которого $a_{ij}$ .

Норма матрицы определяется как

\Vert{A}\Vert_p :=\sup_{x\neq 0}\frac{\Vert{Ax}\Vert_p}{\Vert{x}\Vert_p}

Когда векторы принимают разные нормы, соответственно получаются разные матричные нормы.

1-норма (норма столбца) матрицы: Сначала просуммируйте абсолютные значения элементов каждого столбца матрицы, а затем возьмите из них наибольшие (максимум суммы столбцов) Вышеприведенная матрица $A$ 1 норма получается первой $[5,8,9]$ , а затем взять наибольший конечный результат: 9.

\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|

2-норма матрицы:матрица $A^TA$ Квадратный корень из наибольшего собственного значения приведенной выше матрицы $A$ Окончательный результат, полученный для 2-нормы: 10,0623.

\Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)}

в, $\lambda_{max}(A^T A)$ за $A^T A$ Максимальное значение модуля собственного значения.

Бесконечная норма (норма строки) матрицы: Сначала суммируется абсолютное значение элементов в каждой строке матрицы, а затем из нее берется наибольший, (сумма строк является наибольшей), приведенная выше матрица $A$ Строковая норма получается первой $[6;16]$ , а затем взять наибольший конечный результат: 16.

\Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}|

Ядерная норма матрицы: Сумма сингулярных значений матрицы (разложение матрицы svd), эту норму можно использовать для низкорангового представления (поскольку минимизация ядерной нормы эквивалентна минимизации ранга матрицы - low rank), итоговый результат приведенной выше матрицы A: 10,9287.
L0 норма матрицы: количество ненулевых элементов матрицы, которое обычно используется для представления разреженности.Чем меньше норма L0, тем больше 0 элементов и тем более разрежена вышеуказанная матрица. $A$ В итоге получается: 6.
L1 норма матрицы: сумма абсолютных значений каждого элемента в матрице, это оптимальное выпуклое приближение нормы L0, поэтому она также может представлять разреженную вышеуказанную матрицу $A$ Итоговый результат: 22.
F-норма матрицы: норма наиболее часто используемой матрицы, сумма квадратов каждого элемента матрицы, а затем квадратный корень, ее также обычно называют L2-нормой матрицы,Его преимущество в том, что это выпуклая функция, ее можно вывести и решить, и ее легко вычислить., окончательный результат приведенной выше матрицы A: 10,0995.

\Vert A\Vert_F=\sqrt{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^2)}

L21 норма матрицы: Матрица сначала находит норму F каждого столбца в единицах каждого столбца (она также может рассматриваться как 2 норма вектора), а затем полученный результат вычисляется как норма L1 (ее также можно рассматривать как норму 1 норма вектора), легко видеть, что это норма между L1 и L2, приведенная выше матрица $A$ Окончательный результат: 17.1559.
p-норма матрицы

\Vert A\Vert_p=\sqrt[p]{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^p)}

Скалярное произведение двух векторов может быть представлено нормой:

x^Ty =\Vert x \Vert_2 \Vert y \Vert_2 cos\theta

здесь $\theta$ это угол между х и у.

1.1.7 Некоторые специальные матрицы и векторы

диагональная матрица: На диагонали есть только ненулевые элементы, все остальные позиции равны нулю. Введенная ранее единичная матрица представляет собой тип диагональной матрицы;

Симметричная матрица: транспонировать матрицу, равную самой себе, то есть: $A = A^T$ .

единичный вектор: вектор с единичной нормой, то есть $\Vert x \Vert_2 =1$

вектор ортогональный:если $x^Ty=0$ , то говорят, что векторы x и y ортогональны друг другу. Если векторы не только ортогональны друг другу, но норма равна 1, то это называетсяСтандартный ортогональный.

Ортогональная матрица: вектор-строка и вектор-столбец являются соответственно стандартной ортогональной квадратной матрицей, а именно

A^TA=AA^T=I

То есть имеются:

A^{-1}=A^T

Следовательно, одно из преимуществ ортогональных матриц состоит в том, что вычислительные затраты на инверсию невелики.

1.1.8 Как судить о положительной определенности матрицы

Чтобы определить, является ли матрица положительно определенной, обычно существуют следующие аспекты:

Все последовательные основные подтипы больше 0;
Имеется обратимая матрица $C$ сделать $C^TC$ равен матрице;
Положительный показатель инерции равен $n$ ;
контракт на единичную матрицу $E$ (то есть: каноническая форма $E$ )
Все главные диагональные элементы в канонической форме положительны;
Все собственные значения положительные;
– метрическая матрица базиса.

Матрица со всеми неотрицательными собственными значениями называется положительно-полуопределенной, матрица со всеми отрицательными собственными значениями называется отрицательно определенной, а матрица со всеми неотрицательными собственными значениями называется полуотрицательно определенной.

использование позитива

Применение положительной определенности матрицы Гессе к градиентному спуску
- Если гессиан положительно определен, частная производная второго порядка функции всегда больше 0, а скорость изменения функции находится в возрастающем состоянии, чтобы определить, существует ли локальное оптимальное решение.
Основные предположения построения функций ядра в svm

1.2 Собственные значения и собственные векторы

1.2.1 Разложение по собственным значениям и собственные векторы

Разложение по собственным числам является одним из наиболее широко используемых матричных разложений., разложение матрицы может получить набор собственных значений и собственных векторов;

Собственное значение представляет, насколько важна функция, а собственный вектор представляет, что это за функция.

Если сказать вектор $\vec{v}$ квадратная матрица $A$ Собственные векторы , заведомо будут выражены в следующем виде:

A\nu = \lambda \nu

$\lambda$ вектор признаков $\vec{v}$ соответствующие собственные значения.

Разложение по собственным значениям заключается в разложении матрицы в следующую форму:

A=Q\sum Q^{-1}

в, $Q$ это матрица $A$ изОртогональная матрица собственных векторов, $\sum$ диагональная матрица,Каждый диагональный элемент является собственным значением, собственные значения в ней располагаются от больших к малым, а соответствующие этим собственным значениям собственные векторы описывают направление изменения этой матрицы (располагаются от больших изменений к малым). то есть матрица $A$ Информация может быть представлена его собственными значениями и собственными векторами.

Не всякую матрицу можно разложить на собственные значения и собственные векторы, ноКаждая вещественная симметричная матрицаможно разложить на действительные собственные векторы и действительные собственные значения.

1.2.2 Разложение по сингулярным числам

В дополнение к собственному разложению существует также матричное разложение, называемоесингулярное разложение(SVD), который разлагает матрицу на сингулярные значения и сингулярные векторы. С помощью разложения по сингулярным значениям можно получить тот же тип информации, что и при разложении по собственным значениям, но разложение по сингулярным значениям имеет более широкий спектр применений.Каждая вещественная матрица имеет сингулярное разложение, но не обязательно собственное разложение, потому что это должна быть квадратная матрица, чтобы иметь собственное разложение..

В собственном разложении мы перепишем A как:

A = Vdiag(\lambda)V^{-1}

где V — матрица собственных векторов, $\lambda$ вектор собственных значений, $diag(\lambda)$ Представляет диагональную матрицу, все диагонали которой являются собственными значениями.

Форма разложения по сингулярным числам следующая:

A = U D V^T

если А $m\times n$ матрица, то U равно $m\times m$ матрица, D $m\times n$ матрица, V $n\times n$ матрица. Также матрицы U и V ортогональны, а D диагональна и не обязательно квадратна.

Элементы на диагонали D являются сингулярными значениями A, в то время как вектор-столбец U является левым сингулярным вектором, а вектор-столбец V является правым сингулярным вектором.

Собственное разложение, связанное с A, может быть применено для объяснения его разложения по сингулярным значениям, а левый сингулярный вектор A равен $AA^T$ Собственные векторы , и правый сингулярный вектор $A^TA$ Собственные векторы , ненулевые сингулярные значения A равны $AA^T$ квадратный корень из собственного значения, а также $A^TA$ Квадратный корень из собственного значения.

(Содержание из математических основ глубокого обучения 500 вопросов)

Так как же соотносятся сингулярные значения и собственные значения? Мы берем матрицу $A$ транспонировать умноженное на $A$ , и к $A^TA$ Чтобы найти собственное значение, оно имеет следующий вид:
$(A^TA)V = \lambda V$
здесь $V$ - правый сингулярный вектор выше, плюс:
$\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}AV$
здесь $\sigma$ является единственным значением, $u$ Это упомянутый выше левый сингулярный вектор.

Единственное значение $\sigma$ Подобно собственным значениям, в матрице $\sum$ также расположены от большего к меньшему, и $\sigma$ Снижение происходит особенно быстро,Во многих случаях сумма верхних 10% или даже 1% сингулярных значений составляет более 99% суммы всех сингулярных значений.. То есть мы также можем использовать $r$ ( $r$ намного меньше, чем $м, н$ ) сингулярных значений для приближенного описания матрицы, то есть частичного сингулярного разложения:

A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T

Результатом умножения трех матриц справа будет $A$ матрица, здесь, $r$ ближе к $n$ , тем ближе результат умножения к $A$ .

Добро пожаловать, обратите внимание на мой публичный номер -Примечания к алгоритму ИИ, каждую неделю делитесь заметками об изучении алгоритмов, заметками о чтении статей или проектами github, связанными с учебными пособиями по инструментам.