Основы машинного обучения — PCA

"Это седьмой день моего участия в ноябрьском испытании обновлений, ознакомьтесь с подробностями события:Вызов последнего обновления 2021 г."

В многомерном статистическом анализеАнализ главных компонентов(Английский:Principal components analysis,PCA) — метод статистического анализа, упрощающий наборы данных. Он использует ортогональное преобразование для линейного преобразования наблюдений ряда потенциально коррелированных переменных, тем самым проецируя значения ряда линейно некоррелированных переменных, которые называются главными компонентами. В частности, главный компонент можно рассматривать как линейное уравнение, содержащее ряд линейных коэффициентов, указывающих направление проекции. PCA чувствителен к регуляризации или предварительной обработке исходных данных (относительное масштабирование).

Основная идея

Сначала данные D центрируются, а затем через преобразование находится ось координат, и данные проецируются на новую ось координат, так что проецируемые данные на новую ось координат более рассеяны, то есть дисперсия данных больше, на самом деле это наименьшее Реконструкция расстояния, то есть удаление некоторых важных особенностей данных.

данные

поболтать

D = \{(x_1,y_1),(x_2,y_2),\cdots,(x_i,y_i)\}_N

в $x_i \in \mathbb{R}^m$

когда $m=1$ случай, среднее значение и дисперсия

\overline{X} = \frac{1}{N} \sum_{i=1}^N x_i\\ S = \frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})

когда $m > 1$ случай, среднее значение и дисперсия

\overline{X} = \frac{1}{N} \sum_{i=1}^N x_i\\ S = \frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})(x_i - \overline{x})^T

Затем выразите математическое ожидание и дисперсию в матричной форме.

ожидать

\overline{x} = \frac{1}{N} \sum_{i=1}^N x_i\\ \overline{x} = \frac{1}{N}(x_1,x_2,\cdots,x_n)(1,1,\cdots,1)^T\\ \overline{x} = \frac{1}{N}X^T1_N

В нашей предыдущей линейной задаче мы использовали матрицу X для представления матрицы N выборок, каждая строка матрицы X является выборкой, поэтому X равно $n\times m$ m – столбец проб, $X = (x_1,x_2,\cdots,x_n)^T$ Так что это может быть $X^T = (x_1,x_2,\cdots,x_n)$ Здесь среднее значение $m\times n$ и $n \times 1$ ,так $\overline{x}$ за $m \times 1$ вектор

дисперсия

S = \frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})(x_i - \overline{x})^T\\ S = (x_1 - \overline{x},x_2 - \overline{x},\cdots,x_N - \overline{x}) - \overline{x}(1,1,\cdots,1)\\ \frac{1}{N}X^T(I_N - \frac{1}{N} 1_N1_N^T)(I_N - \frac{1}{N} 1_N1_N^T)^TX

H = (I_N - \frac{1}{N}1_N1_N^T)

Тогда H обладает следующими свойствами

H = H^T H = H^2

Наконец, среднее значение и дисперсия представлены в матричной форме.

\overline{x} = \frac{1}{N}X^T1_N\\ S = \frac{1}{N}X^THX

проекция данных

(x_i - \overline{x})u_1\\

L = \sum_{i=1}^N ((x_i - \overline{x})^Tu_1)^2\\ s.t. u_1^Tu_1 = 1

\sum_{i=1}^N u_1^T(x_i - \overline{x})(x_i - \overline{x})u_1\\ u_1^T (\sum_{i=1}^N (x_i - \overline{x})(x_i - \overline{x})) u_1\\ u_1^T S u_1

\hat{u_1} = \argmax u_1^T S u_1\\ u_1^T u_1 = 1

L(u,\lambda) = u_1^T S u_1 + \lambda(1-u_1^Tu_1)\\

Su_1 = \lambda u_1