Заметки по математике — линейная алгебра

математика
Заметки по математике — линейная алгебра

Начните рассматривать основы алгоритмов ИИ-математики, в основном в трех аспектах:

  1. Линейная алгебра
  2. теория вероятности
  3. исчисление

Справочное содержание выглядит следующим образом:

Эта статья является первой, содержание части линейной алгебры, в основном для сравнения учебных заметок базовой части.

1. Линейная алгебра

1.1 Векторы и матрицы

1.1.1 Связь между скалярами, векторами, матрицами и тензорами

скаляр (скаляр)

Скаляр представляет собой одно число, в отличие от большинства других объектов, изучаемых в линейной алгебре (обычно это массив чисел). Мы обозначаем скаляры курсивом. Скалярам обычно дают имена переменных в нижнем регистре. Обычно понятно, к какому типу принадлежит скаляр, например, при определении вещественного скаляра вы скажете «пустьsеRs\in Rпредставляет собой наклон линии».

вектор

Вектор представляет собой упорядоченный набор чисел. Индексируя в порядке, мы можем определить каждый отдельный номер. Обычно мы даем имена переменных вектора жирным шрифтом в нижнем регистре, например, xx. Элементы в векторе могут быть представлены курсивом с нижним индексом. векторXXПервый элементX1X_1, второй элементX2X_2, и так далее. Мы также отмечаем тип (действительный, мнимый и т. д.) элементов, хранящихся в векторе.

Ниже показан вектор Вектор можно рассматривать как точку в пространстве, то есть каждый элемент может представлять координату на другой координатной оси.

x=[x1x2x3xn]x = \left[ \begin{matrix} x_1 \\ x_2 \\ x_3 \\ \cdots \\ x_n \end{matrix} \right]

матрица

Матрица — это набор объектов с одинаковыми характеристиками и широтой, представленный в виде двумерной таблицы данных. Смысл в том, что объект представлен в виде строки в матрице, признак представлен в виде столбца в матрице, и каждый признак имеет числовое значение. Обычно матрицам даются имена переменных, выделенные жирным шрифтом в верхнем регистре, напримерAA.

Пример представления матрицы показан ниже:

A=[A1,1A1,2A2,1A2,2]A = \left[ \begin{matrix} A_{1,1} & A_{1,2} \\ A_{2,1} & A_{2,2} \\ \end{matrix} \right]

ТранспонироватьЭто одна из важных операций матрицы.Его транспонирование является зеркальным отражением диагональной оси.Эта диагональная линия из левого верхнего угла в правый нижний угол называетсяглавная диагональ, определяемый следующим образом:

(AT)i,j=Aj,i(A^T){i,j} = A_{j,i}

Пример операции выглядит следующим образом:

A=[A1,1A1,2A2,1A2,2A3,1A3,2]==>AT=[A1,1A2,1A3,1A1,2A2,2A3,2]A = \left[ \begin{matrix} A_{1,1} & A_{1,2} \\ A_{2,1} & A_{2,2} \\ A_{3,1} & A_{3,2} \end{matrix} \right] ==> A^T = \left[ \begin{matrix} A_{1,1} & A_{2,1} & A_{3, 1} \\ A_{1,2} & A_{2,2} & A_{3,2}\\ \end{matrix} \right]

Из3×23\times 2Матрица становится2×3 2\times 3матрица.

Тензор (тензор)

В некоторых случаях мы будем обсуждать массивы с координатами более чем в двух измерениях. В общем случае элементы массива распределены по регулярной сетке координат в нескольких измерениях, которую мы называем тензором. использоватьAAдля представления тензора «А». ТензорAAСредние координаты(i,j,k)(i,j,k)элементыA(i,j,k)A_{(i,j,k)}.

Отношения между четырьмя

(из Deep Learning 500 Questions Chapter 1 Mathematical Fundamentals)

Скаляр — это тензор ранга 0, а вектор — это тензор ранга 1. Пример:
Скаляр просто знает длину палки, но не знает, куда она указывает.
Вектор не только знает длину палки, но также знает, направлена ​​ли палка вперед или назад.
Тензор не только знает длину палки, но также знает, направлена ​​ли палка вперед или назад, и насколько палочка отклонена вверх/вниз и влево/вправо.

1.1.2 Разница между тензорами и матрицами

  • Алгебраически говоря, матрица — это обобщение вектора. Вектор можно рассматривать как одномерную «таблицу» (то есть компоненты расположены в ряд по порядку), а матрицу — как двумерную «таблицу» (компоненты расположены по вертикали и горизонтали). позиции), тоnnТензор ранга называетсяnn«Таблица» размеров. Строгое определение тензора состоит в том, чтобы использовать для его описания линейную карту.
  • Говоря геометрически, матрица — это реальная геометрическая величина, то есть нечто, что не меняется при преобразовании координат системы отсчета. Векторы также обладают этим свойством.
  • Тензоры могут быть представлены в виде матриц 3×3.
  • Числа, представляющие скаляры, и трехмерные массивы, представляющие векторы, также можно рассматривать как матрицы 1×1 и 1×3 соответственно.

1.1.3 Результаты умножения матриц и векторов

Если используется соглашение о суммировании Эйнштейна, матрицаAA, BBУмножьте, чтобы получить матрицуCCЕго можно выразить следующей формулой:AB=C==>aik*bkj=cijAB = C ==> a_{ik}*b_{kj}=c_{ij}

в,aika_{ik}, bkjb_{kj}, cijc_{ij}соответственно представляют матрицуA,B,CA, B, CЭлементы,kkПоявляется дважды, это фиктивная переменная (Dummy Variables), указывающая, что параметр проходится и суммируется.

Пример:

A=[A1,1A1,2A2,1A2,2] B=[B1,1B1,2B2,1B2,2]A×B=C=[A1,1×B1,1+A1,2×B2,1A1,1×B1,2+A1,2×B2,2A2,1×B1,1+A2,2×B2,1A2,1×B1,2+A2,2×B2,2]=[C1,1C1,2C2,1C2,2]A= \left[ \begin{matrix} A_{1,1} & A_{1,2} \\ A_{2,1} & A_{2,2} \\ \end{matrix} \right] \ B = \left[ \begin{matrix} B_{1,1} & B_{1,2} \\ B_{2,1} & B_{2,2} \\ \end{matrix} \right] \\ A \times B = C = \left[ \begin{matrix} A_{1,1}\times B_{1,1}+A_{1,2}\times B_{2,1} & A_{1,1}\times B_{1,2}+A_{1,2}\times B_{2,2} \\ A_{2,1}\times B_{1,1}+A_{2,2}\times B_{2,1} & A_{2,1}\times B_{1,2}+A_{2,2}\times B_{2,2} \\ \end{matrix} \right] = \left[ \begin{matrix} C_{1,1} & C_{1,2} \\ C_{2,1} & C_{2,2} \\ \end{matrix} \right]

Таким образом, умножение матриц имеет предпосылку,Количество столбцов матрицы A должно быть равно количеству строк матрицы B, то есть если размерность A равнаm×nm\times n, размер B должен бытьn×pn \times p, размер матрицы C, полученной умножением, равенm×pm\times p.

Существует также матричное умножение, которое заключается в умножении соответствующих элементов матрицы, что называетсяПродукт, соответствующий элементу, или продукт Адамара, обозначаемый как A ⊙ B

А умножение матриц и векторов можно рассматривать как частный случай умножения матриц, например: матрицаBBЯвляетсяn×1n \times 1матрица.

Матричный продукт удовлетворяет этим законам:

  1. Соблюдайте коэффициент распределения: A(B+C) = AB + AC
  2. Соблюдайте закон ассоциативности: A(BC) = (AB)C

ноНе подчиняясь коммутативному закону, то есть АВ не обязательно равно ВА.

Произведение матриц удовлетворяет:(AB)T=ATBT(АВ)^Т = А^ТБ^Т

Скалярное произведение двух векторов x и y одинаковой размерности можно рассматривать как матричное произведение —xTyx^Ty. То есть матричное произведение может бытьC=ABC=ABсредний расчетCi,jC_{i,j}Шаги рассматриваются как скалярное произведение между строкой i матрицы A и столбцом j матрицы B . Ведь каждая строка или столбец матрицы — это вектор.

Скалярное произведение векторов коммутативно:

xTy=yTxx^Ty = y^Tx

Доказательство в основном основано на:

  1. Скалярное произведение двух векторов является скаляром
  2. Транспонирование скаляра также само по себе

Итак, есть:

xTy=(xTy)T=xyTx^Ty = (x^Ty)^T = xy^T

1.1.4 Тождественные и обратные матрицы

Матрица идентичности определяется следующим образом:Единичная матрица представлена ​​I, и любой вектор, умноженный на единичную матрицу, не изменится,который:

xеRn,Inx=x(1-1-8)\forall x \in R^n, I_n x = x \tag{1-1-8}

Структура единичной матрицы очень проста, то есть главная диагональ равна 1, а остальные позиции равны 0, как показано на следующем рисунке.I3I_3:

[100010001]\left[ \begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{matrix} \right]

А обратная матрица записывается какA1A^{-1}, который удовлетворяет следующим условиям:

A1A=InA^{-1}A=I_n

1.1.5 Системы линейных уравнений и линейных корреляций

Теперь у нас есть линейная система уравнений, которая выглядит так:

Ax=bAx = b

в,AеRm×nA\in R^{m\times n}известная матрица,bеRmb\in R^m— известный вектор, тоxеRnx\in R^n- неизвестный вектор, для которого нужно решить.

Здесь в соответствии с умножением матриц (x эквивалентен an×1n\times 1матрица), приведенную выше формулу можно расширить:

A1,:x=b1==>A1,1x1+A1,2x2++A1,nxn=b1A2,:x=b2==>A2,1x1+A2,2x2++A2,nxn=b2Am,:x=bm==>Am,1x1+Am,2x2++Am,nxn=bmA_{1,:}x = b_1 ==> A_{1,1}x_1 + A_{1,2}x_2+\cdots+A_{1,n}x_n = b_1 \\ A_{2,:}x = b_2 ==> A_{2,1}x_1 + A_{2,2}x_2+\cdots+A_{2,n}x_n = b_2 \\ \cdots \\ A_{m,:}x = b_m ==> A_{m,1}x_1 + A_{m,2}x_2+\cdots+A_{m,n}x_n = b_m \\

После того, как мы определим обратную матрицу, мы можем решить ее следующим образом:

Ax=bA1Ax=A1bInx=A1bx=A1bAx=b\\ A^{-1}Ax = A^{-1}b\\ I_nx = A^{-1}b \\ x = A^{-1}b

Таким образом, ключ к решению заключается в том, существует ли обратная матрица и ее нахождение.

Когда обратная матрицаA1A^{-1}существует, то для каждого вектора b должно быть ровно одно решение.

А вот для системы уравнений может не быть решения при некоторых значениях вектора b, или решений бесконечно много, решения не более одного, а есть конечные решения, например x и y оба решение уравнений, есть:

z=альфаx+(1альфа)yz = \alpha x + (1-\alpha)y

в,альфа\alphaлюбое действительное число, то z также является решением системы уравнений, и эта комбинация бесконечна, поэтому конечного решения (более 1) не существует.

Определите, имеет ли Ax=b решение,Ключ в том, чтобы определить, находится ли вектор b в порождающем подпространстве вектора-столбца A., это специальное порождающее подпространство называется пространством столбцов A или диапазоном A.

Линейная комбинация набора векторов относится к сумме каждого вектора, умноженной на соответствующий скалярный коэффициент, то естьiciv(i)\sum_i c_i v^{(i)}

Порождающее подпространство набора векторов — это множество точек, до которых можно добраться путем линейной комбинации исходных векторов.

Итак, для того, чтобы вышеизложенное выполнялось,должно позволить пространству столбца A составлять весьRmR^mкосмос, если точка в этом пространстве не находится в пространстве столбца A, то соответствующее b сделает уравнение неразрешимым. И чтобы оно выполнялось, ** должно удовлетворять неравенствуnmn\ge m**.

Но это неравенство является лишь необходимым, а не достаточным условием того, что уравнение имеет решение для каждого b. Поскольку существует ситуация, когда некоторые векторы-столбцы могут быть избыточными, например2×22\times 2Если два вектора-столбца одинаковы, то пространство столбцов матрицы совпадает с одним из ее векторов-столбцов в качестве пространства-столбца матрицы, что не удовлетворяет покрытию всей матрицы.R2R^2космос.

Эта избыточность также называетсяЛинейная корреляцияНабор векторов называется линейно независимым, если любой вектор в наборе не может быть представлен в виде линейной комбинации других векторов..

так,Если пространство столбца матрицы должно покрывать всеRmR^m, то матрица должна содержать не менее набора из m линейно независимых векторов, что является необходимым и достаточным условием того, чтобы каждое b имело решение.

Кроме того, чтобысделать матрицу обратимой, вы также должны убедиться, что Ax=b имеет не более одного решения для каждого значения b, что должно гарантировать, что матрица имеет не более m векторов-столбцов, иначе уравнение имеет более одного решения.

Подводить итоги,Тогда матрица должна быть квадратной, то есть m = n, и все векторы-столбцы линейно независимы.. Квадратная матрица, все векторы-столбцы которой линейно независимы, называетсястранный.

Если A не квадратная матрица или сингулярная квадратная матрица, может быть решение, но оно не может быть решено с помощью обратной матрицы.

1.1.6 Индукция норм векторов и матриц

норма вектора

Обычно размер вектора измеряетсянормаизмерять, по формеLPL^PНорма определяется следующим образом:

Lp=xp=i=1NxippL_p=\Vert\vec{x}\Vert_p=\sqrt[p]{\sum_{i=1}^{N}|{x_i}|^p}

здесьp1p\ge 1.

Норма — это функция, которая отображает вектор в неотрицательное число Интуитивно понятно, что норма вектора x измеряет расстояние от начала координат до точки x.

Нормой называется любая функция, удовлетворяющая следующим свойствам:

f(x)=0=>x=0f(x+y)f(x)+f(y)(неравенство треугольника)альфаеR,f(альфаx)=альфаf(x)f(x)=0=>x=0 \\ f(x+y)\le f(x)+f(y)(треугольное неравенство)\\ \forall \alpha \in R, f(\alpha x) = |\альфа|f(x)

Определите вектор как:a=[5,6,8,10]\vec{a}=[-5, 6, 8, -10]. Любой набор векторов устанавливается вx=(x1,x2,...,xN)\vec{x}=(x_1,x_2,...,x_N). Различные нормальные решения следующие:

  • 1 норма вектора: сумма абсолютных значений элементов вектора, указанного выше вектораa\vec{a}Результат 1 нормы: x = |-5|+|6|+|8|+|-10| = 29.
x1=i=1Nxi\Vert\vec{x}\Vert_1=\sum_{i=1}^N\vert{x_i}\vert
  • 2-норма (евклидова норма) вектора: квадратный корень из суммы квадратов каждого элемента вектора, вышеa\vec{a}Результат 2-нормы:x=(5)2+(6)2+(8)2+(10)215x=\sqrt{(-5)^2+(6)^2+(8)^2+(-10)^2}15.
x2=i=1Nxi2\Vert\vec{x}\Vert_2=\sqrt{\sum_{i=1}^N{\vert{x_i}\vert}^2}
  • Отрицательная норма бесконечности вектора: наименьшее из абсолютных значений всех элементов вектора: указанный выше векторa\vec{a}Отрицательная норма бесконечности , результат: 5.
x=minxi\Vert\vec{x}\Vert_{-\infty}=\min{|{x_i}|}
  • Положительная норма бесконечности вектора: наибольшее из абсолютных значений всех элементов вектора: указанный выше векторa\vec{a}Результат положительной нормы бесконечности: 10.
x+=maxxi\Vert\vec{x}\Vert_{+\infty}=\max{|{x_i}|}

норма матрицы

Определите матрицу.

A=[123466]A = \left[ \begin{matrix} -1 & 2 & -3 \\ 4 & -6 & 6 \\ \end{matrix} \right]

Произвольная матрица определяется как:Am×nA_{m\times n}, элементы которогоaija_{ij}.

Норма матрицы определяется как

Ap:=supx0Axpxp\Vert{A}\Vert_p :=\sup_{x\neq 0}\frac{\Vert{Ax}\Vert_p}{\Vert{x}\Vert_p}

Когда векторы принимают разные нормы, соответственно получаются разные матричные нормы.

  • 1-норма (норма столбца) матрицы: Сначала просуммируйте абсолютные значения элементов каждого столбца матрицы, а затем возьмите из них наибольшие (максимум суммы столбцов) Вышеприведенная матрицаAA1 норма получается первой[5,8,9][5,8,9], а затем взять наибольший конечный результат: 9.
A1=max1jni=1maij\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|
  • 2-норма матрицы:матрицаATAA^TAКвадратный корень из наибольшего собственного значения приведенной выше матрицыAAОкончательный результат, полученный для 2-нормы: 10,0623.
A2=λmax(ATA)\Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)}

в,λmax(ATA)\lambda_{max}(A^T A)заATAA^T AМаксимальное значение модуля собственного значения.

  • Бесконечная норма (норма строки) матрицы: Сначала суммируется абсолютное значение элементов в каждой строке матрицы, а затем из нее берется наибольший, (сумма строк является наибольшей), приведенная выше матрицаAAСтроковая норма получается первой[6;16][6;16], а затем взять наибольший конечный результат: 16.
A=max1imj=1naij\Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}|
  • Ядерная норма матрицы: Сумма сингулярных значений матрицы (разложение матрицы svd), эту норму можно использовать для низкорангового представления (поскольку минимизация ядерной нормы эквивалентна минимизации ранга матрицы - low rank), итоговый результат приведенной выше матрицы A: 10,9287.

  • L0 норма матрицы: количество ненулевых элементов матрицы, которое обычно используется для представления разреженности.Чем меньше норма L0, тем больше 0 элементов и тем более разрежена вышеуказанная матрица.AAВ итоге получается: 6.

  • L1 норма матрицы: сумма абсолютных значений каждого элемента в матрице, это оптимальное выпуклое приближение нормы L0, поэтому она также может представлять разреженную вышеуказанную матрицуAAИтоговый результат: 22.

  • F-норма матрицы: норма наиболее часто используемой матрицы, сумма квадратов каждого элемента матрицы, а затем квадратный корень, ее также обычно называют L2-нормой матрицы,Его преимущество в том, что это выпуклая функция, ее можно вывести и решить, и ее легко вычислить., окончательный результат приведенной выше матрицы A: 10,0995.

AF=(i=1mj=1naij2)\Vert A\Vert_F=\sqrt{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^2)}
  • L21 норма матрицы: Матрица сначала находит норму F каждого столбца в единицах каждого столбца (она также может рассматриваться как 2 норма вектора), а затем полученный результат вычисляется как норма L1 (ее также можно рассматривать как норму 1 норма вектора), легко видеть, что это норма между L1 и L2, приведенная выше матрицаAAОкончательный результат: 17.1559.
  • p-норма матрицы
Ap=(i=1mj=1naijp)p\Vert A\Vert_p=\sqrt[p]{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^p)}

Скалярное произведение двух векторов может быть представлено нормой:

xTy=x2y2cosθx^Ty =\Vert x \Vert_2 \Vert y \Vert_2 cos\theta

здесьθ\thetaэто угол между х и у.

1.1.7 Некоторые специальные матрицы и векторы

диагональная матрица: На диагонали есть только ненулевые элементы, все остальные позиции равны нулю. Введенная ранее единичная матрица представляет собой тип диагональной матрицы;

Симметричная матрица: транспонировать матрицу, равную самой себе, то есть:A=ATA = A^T.

единичный вектор: вектор с единичной нормой, то естьx2=1\Vert x \Vert_2 =1

вектор ортогональный:еслиxTy=0x^Ty=0, то говорят, что векторы x и y ортогональны друг другу. Если векторы не только ортогональны друг другу, но норма равна 1, то это называетсяСтандартный ортогональный.

Ортогональная матрица: вектор-строка и вектор-столбец являются соответственно стандартной ортогональной квадратной матрицей, а именно

ATA=AAT=IA^TA=AA^T=I

То есть имеются:

A1=ATA^{-1}=A^T

Следовательно, одно из преимуществ ортогональных матриц состоит в том, что вычислительные затраты на инверсию невелики.

1.1.8 Как судить о положительной определенности матрицы

Чтобы определить, является ли матрица положительно определенной, обычно существуют следующие аспекты:

  • Все последовательные основные подтипы больше 0;
  • Имеется обратимая матрицаCCсделатьCTCC^TCравен матрице;
  • Положительный показатель инерции равенnn;
  • контракт на единичную матрицуEE(то есть: каноническая формаEE)
  • Все главные диагональные элементы в канонической форме положительны;
  • Все собственные значения положительные;
  • – метрическая матрица базиса.

Матрица со всеми неотрицательными собственными значениями называется положительно-полуопределенной, матрица со всеми отрицательными собственными значениями называется отрицательно определенной, а матрица со всеми неотрицательными собственными значениями называется полуотрицательно определенной.

использование позитива

  • Применение положительной определенности матрицы Гессе к градиентному спуску
    • Если гессиан положительно определен, частная производная второго порядка функции всегда больше 0, а скорость изменения функции находится в возрастающем состоянии, чтобы определить, существует ли локальное оптимальное решение.
  • Основные предположения построения функций ядра в svm

1.2 Собственные значения и собственные векторы

1.2.1 Разложение по собственным значениям и собственные векторы

Разложение по собственным числам является одним из наиболее широко используемых матричных разложений., разложение матрицы может получить набор собственных значений и собственных векторов;

Собственное значение представляет, насколько важна функция, а собственный вектор представляет, что это за функция.

Если сказать векторv\vec{v}квадратная матрицаAAСобственные векторы , заведомо будут выражены в следующем виде:

Aн=λнA\nu = \lambda \nu

λ\lambdaвектор признаковv\vec{v}соответствующие собственные значения.

Разложение по собственным значениям заключается в разложении матрицы в следующую форму:

A=QQ1A=Q\sum Q^{-1}

в,QQэто матрицаAAизОртогональная матрица собственных векторов,\sumдиагональная матрица,Каждый диагональный элемент является собственным значением, собственные значения в ней располагаются от больших к малым, а соответствующие этим собственным значениям собственные векторы описывают направление изменения этой матрицы (располагаются от больших изменений к малым). то есть матрицаAAИнформация может быть представлена ​​его собственными значениями и собственными векторами.

Не всякую матрицу можно разложить на собственные значения и собственные векторы, ноКаждая вещественная симметричная матрицаможно разложить на действительные собственные векторы и действительные собственные значения.

1.2.2 Разложение по сингулярным числам

В дополнение к собственному разложению существует также матричное разложение, называемоесингулярное разложение(SVD), который разлагает матрицу на сингулярные значения и сингулярные векторы. С помощью разложения по сингулярным значениям можно получить тот же тип информации, что и при разложении по собственным значениям, но разложение по сингулярным значениям имеет более широкий спектр применений.Каждая вещественная матрица имеет сингулярное разложение, но не обязательно собственное разложение, потому что это должна быть квадратная матрица, чтобы иметь собственное разложение..

В собственном разложении мы перепишем A как:

A=Vdiag(λ)V1A = Vdiag(\lambda)V^{-1}

где V — матрица собственных векторов,λ\lambdaвектор собственных значений,diag(λ)diag(\lambda)Представляет диагональную матрицу, все диагонали которой являются собственными значениями.

Форма разложения по сингулярным числам следующая:

A=UDVTA = U D V^T

если Аm×nm\times nматрица, то U равноm×mm\times mматрица, Dm×nm\times nматрица, Vn×nn\times nматрица. Также матрицы U и V ортогональны, а D диагональна и не обязательно квадратна.

Элементы на диагонали D являются сингулярными значениями A, в то время как вектор-столбец U является левым сингулярным вектором, а вектор-столбец V является правым сингулярным вектором.

Собственное разложение, связанное с A, может быть применено для объяснения его разложения по сингулярным значениям, а левый сингулярный вектор A равенAATAA^TСобственные векторы , и правый сингулярный векторATAA^TAСобственные векторы , ненулевые сингулярные значения A равныAATAA^Tквадратный корень из собственного значения, а такжеATAA^TAКвадратный корень из собственного значения.

(Содержание из математических основ глубокого обучения 500 вопросов)

Так как же соотносятся сингулярные значения и собственные значения? Мы берем матрицуAAтранспонировать умноженное наAA, и кATAA^TAЧтобы найти собственное значение, оно имеет следующий вид:

(ATA)V=λV(A^TA)V = \lambda V

здесьVV- правый сингулярный вектор выше, плюс:

оi=λi,ui=1оiAV\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}AV

здесьо\sigmaявляется единственным значением,uuЭто упомянутый выше левый сингулярный вектор.

Единственное значениео\sigmaПодобно собственным значениям, в матрице\sumтакже расположены от большего к меньшему, ио\sigmaСнижение происходит особенно быстро,Во многих случаях сумма верхних 10% или даже 1% сингулярных значений составляет более 99% суммы всех сингулярных значений.. То есть мы также можем использоватьrr(rrнамного меньше, чемm,nм, н) сингулярных значений для приближенного описания матрицы, то есть частичного сингулярного разложения:

Am×nUm×rr×rVr×nTA_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T

Результатом умножения трех матриц справа будетAAматрица, здесь,rrближе кnn, тем ближе результат умножения кAA.


Добро пожаловать, обратите внимание на мой публичный номер -Примечания к алгоритму ИИ, каждую неделю делитесь заметками об изучении алгоритмов, заметками о чтении статей или проектами github, связанными с учебными пособиями по инструментам.