В машинном обучении задействовано большое количество матричных операций, и знание линейной алгебры очень важно для изучения машинного обучения.Эта статья суммирует линейную алгебру, используемую в машинном обучении.
1. Основные концепции символов
1.1 Скаляр (скаляр)
Скаляр — это величина, которая имеет только величину, без направления и может быть представлена действительным числом.
1.2 Вектор (вектор)
Вектор — это геометрический объект, который имеет размер и направление. Вектор может быть представлен как вектор-строка или вектор-столбец.
or
1.3 Матрица
Матрица представляет собой прямоугольный массив из m строк и n столбцов элементов. Обычно обозначается заглавными буквами, матрицаномер сверху слеварядЭлементы столбца называютсяэлемент, обычно обозначаемый как. Ниже представлена матрица с 3 строками и 4 столбцами:
фаланга: Матрица с одинаковым количеством строк и столбцов называется квадратной матрицей.
диагональная матрица: Если только элементы на главной диагонали квадратной матрицы не равны 0, а остальные равны 0, то она называется диагональной матрицей.
единичная матрица: Если все элементы главной диагонали диагональной матрицы равны 1, то матрица является единичной матрицей
1.4 Тензор (тензор)
Тензоры можно рассматривать как многомерные массивы, которые являются многомерными обобщениями скаляров, одномерных векторов и двумерных матриц. Ссылаясь на документацию TensorFlow, можно считать, что:
- Скаляр можно назвать тензором «ранга 0», содержащим одно значение и не имеющим осей.
- Скаляр можно назвать тензором «ранга 1», содержащим список значений с одной осью.
- Матрицу можно назвать тензором «ранга 2» с двумя осями.
Следующий рисунок очень наглядно иллюстрирует сказанное выше:
Для визуализации тензоров на следующем рисунке показаны три метода визуализации одного и того же трехосного тензора:
2. Операция
2.1 Векторный внутренний продукт
Внутренний продукт (точечный продукт), также известный как скалярный продукт, количественный продукт, результат является скаляром два вектораиСкалярный продукт определяется как:
2.2 Векторное внешнее произведение
Внешний продукт в линейной алгебре обычно относится к тензорному произведению двух векторов, результатом которого является матрица, например:
2.3 Умножение матриц
какзаматрица,заматрица, то их произведениебыло быматрица. Элементы матрицы его произведения получаются следующим образом:
Это представлено графически как:
Можно считать, что матричное умножение является расширением внутреннего произведения векторов.Внутреннее произведение (скалярное произведение) соответствующих векторов строк и столбцов может использоваться для получения элементов матрицы в соответствующих позициях.
2.4 Транспонирование матрицы
Транспонировать (транспонировать), выраженный как, то есть матрицаГоризонтальная строка записывается как ее столбец, аСтолбец записывается как его строка. Математически выражается как:
Пример выглядит следующим образом:
2.5 Обратная матрица
Обратная матрица для заданной квадратной матрицы порядка n, если существует квадратная матрица порядка n, так что:
,
взаединичная матрица порядка, тогдаявляется обратимым, идаОбратная матрица , обозначаемая какТолько квадратная матрица (матрица) может иметь обратную матрицу. Если квадратОбратная матрица существует, то она называетсяявляется неособой квадратной матрицей или обратимой квадратной матрицей
3. Разложение матрицы
3.1 Собственные значения и собственные векторы
дана квадратная матрица,называетсясобственное значение , когда есть векторудовлетворить, В настоящее время,дасобственный вектор
3.2 Разложение по сингулярным числам
Разложение по сингулярным числам (SVD) может использоваться для любогоматрица, а собственное разложение может применяться только к определенным типам квадратных матриц, поэтому диапазон применения разложения по сингулярным числам шире.
ПредположениеЯвляетсяматрица порядка, мы определяемСингулярное разложениев– матрица порядка m×m;имеет порядок m×n;– матрица порядка n×n;ивсе матрицы вождей, т.е. удовлетворяющие , ,все равны 0, за исключением элементов на главной диагонали, которые называются сингулярными значениями.
На следующем рисунке очень наглядно показана СВД:В машинном обучении очень часто используется алгоритм PCA для уменьшения размерности, и его можно преобразовать в SVD в процессе расчета, тем самым уменьшив вычислительную сложность. Кроме того, SVD практически незаменим в рекомендательных системах.
3.3 Расчет сингулярного разложения
учитываяСингулярное разложение , согласно приведенному выше обсуждению, отношение между ними следующее (гдедаСопряженная транспонированная матрица (матрица транспонирования обобщается на комплексные числа)):
Правая часть соотношения описывает разложение по собственным значениям левой части соотношения. тогда:
-
Вектор-столбец (правый сингулярный вектор) равенсобственные векторы .
-
Вектор-столбец (левый сингулярный вектор) равенсобственные векторы .
-
Ненулевые диагональные элементы (ненулевые сингулярные значения)илиКвадратный корень из ненулевых собственных значений .
Поэтому, вычисливСобственные векторы и собственные значения ,Собственные векторы и собственные значения , то есть спариваниесингулярное разложение
4. Метрики расстояния и подобия
4.1 Манхэттенское расстояние
То есть норма L1, определяемая как:
,
Его наиболее распространенным применением в машинном обучении являетсяРегуляризация, также известная как Лассо
4.2 Евклидово расстояние
Также известная как норма L2, она определяется как сумма квадратов каждого элемента, выраженная как:
,
Его применениеРегуляризация, также известная как RidgeиРегуляризация широко используется в моделях машинного обучения, в основном для уменьшения сложности модели и уменьшения переобучения.
4,3 лп норма
Норма определяется как:
, когдаПринимая разные значения, мы можем получить разные нормы
-
Время:,Сейчас, норма представляет собой сумму абсолютных значений компонентов вектора, также известного как манхэттенское расстояние
-
Время:, который, что является евклидовым расстоянием
-
Время:, что является максимальной нормой, также известной как расстояние Чебышева
4.4 Косинусное подобие
даны два вектораи, косинусное подобиезадается скалярным произведением и длиной вектора следующим образом:
,
Диапазон сходства косинусов,означает, что два вектора направлены в противоположные стороны,означает, что их направление точно такое же,Обычно означает, что они независимы, а значение между ними означает сходство или несходство посередине, чем больше значение, тем больше сходство
4.5 Расстояние Хэмминга
Расстояние Хэмминга — это количество символов, которые необходимо заменить, чтобы преобразовать строку в другую строку такой же длины. Например, расстояние Хэмминга между «прикосновением» и «обучением» равно 2.
4.6 Коэффициент подобия Жаккара
Он определяется как отношение размера пересечения двух множеств к размеру объединения:
Диапазон значений коэффициента подобия Жаккара составляет:
Расстояние Жаккара используется для измерения различия между наборами выборок, которое определяется как 1 минус коэффициент Жаккара, а именно:
4.7 Коэффициент корреляции Пирсона
Коэффициент корреляции Пирсона между двумя переменными определяется как ковариация двух переменных, деленная на произведение их стандартных отклонений:
Диапазон изменения коэффициента корреляции Пирсона составляет.
Значение коэффициентазначитиможет быть хорошо описана уравнением прямой линии, все точки данных хорошо ложатся на прямую линию, ивместе сувеличивается с ростом.
Значение коэффициентаозначает, что все точки данных падают на прямую линию, ивместе сувеличиваться и уменьшаться.
Значение коэффициентаозначает, что между двумя переменными нет линейной зависимости
Продолжайте подводить итоги и делиться знаниями о машинном обучении, науке о данных, приглашайте друзей для обмена и обсуждения...