Основы машинного обучения — PCA

машинное обучение искусственный интеллект
Основы машинного обучения — PCA

"Это седьмой день моего участия в ноябрьском испытании обновлений, ознакомьтесь с подробностями события:Вызов последнего обновления 2021 г."

В многомерном статистическом анализеАнализ главных компонентов(Английский:Principal components analysis,PCA) — метод статистического анализа, упрощающий наборы данных. Он использует ортогональное преобразование для линейного преобразования наблюдений ряда потенциально коррелированных переменных, тем самым проецируя значения ряда линейно некоррелированных переменных, которые называются главными компонентами. В частности, главный компонент можно рассматривать как линейное уравнение, содержащее ряд линейных коэффициентов, указывающих направление проекции. PCA чувствителен к регуляризации или предварительной обработке исходных данных (относительное масштабирование).

Основная идея

Сначала данные D центрируются, а затем через преобразование находится ось координат, и данные проецируются на новую ось координат, так что проецируемые данные на новую ось координат более рассеяны, то есть дисперсия данных больше, на самом деле это наименьшее Реконструкция расстояния, то есть удаление некоторых важных особенностей данных.

данные

поболтать

D={(x1,y1),(x2,y2),,(xi,yi)}ND = \{(x_1,y_1),(x_2,y_2),\cdots,(x_i,y_i)\}_N

вxiеRmx_i \in \mathbb{R}^m

когдаm=1m=1случай, среднее значение и дисперсия

X=1Ni=1NxiS=1Ni=1N(xix)\overline{X} = \frac{1}{N} \sum_{i=1}^N x_i\\ S = \frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})

когдаm>1m > 1случай, среднее значение и дисперсия

X=1Ni=1NxiS=1Ni=1N(xix)(xix)T\overline{X} = \frac{1}{N} \sum_{i=1}^N x_i\\ S = \frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})(x_i - \overline{x})^T

Затем выразите математическое ожидание и дисперсию в матричной форме.

ожидать

x=1Ni=1Nxix=1N(x1,x2,,xn)(1,1,,1)Tx=1NXT1N\overline{x} = \frac{1}{N} \sum_{i=1}^N x_i\\ \overline{x} = \frac{1}{N}(x_1,x_2,\cdots,x_n)(1,1,\cdots,1)^T\\ \overline{x} = \frac{1}{N}X^T1_N

В нашей предыдущей линейной задаче мы использовали матрицу X для представления матрицы N выборок, каждая строка матрицы X является выборкой, поэтому X равноn×mn\times mm – столбец проб,X=(x1,x2,,xn)TX = (x_1,x_2,\cdots,x_n)^TТак что это может бытьXT=(x1,x2,,xn)X^T = (x_1,x_2,\cdots,x_n)Здесь среднее значениеm×nm\times nиn×1n \times 1,такx\overline{x}заm×1m \times 1вектор

дисперсия

S=1Ni=1N(xix)(xix)TS=(x1x,x2x,,xNx)x(1,1,,1)1NXT(IN1N1N1NT)(IN1N1N1NT)TXS = \frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})(x_i - \overline{x})^T\\ S = (x_1 - \overline{x},x_2 - \overline{x},\cdots,x_N - \overline{x}) - \overline{x}(1,1,\cdots,1)\\ \frac{1}{N}X^T(I_N - \frac{1}{N} 1_N1_N^T)(I_N - \frac{1}{N} 1_N1_N^T)^TX
H=(IN1N1N1NT)H = (I_N - \frac{1}{N}1_N1_N^T)

Тогда H обладает следующими свойствами

H=HTH=H2H = H^T H = H^2

Наконец, среднее значение и дисперсия представлены в матричной форме.

x=1NXT1NS=1NXTHX\overline{x} = \frac{1}{N}X^T1_N\\ S = \frac{1}{N}X^THX

проекция данных

(xix)u1(x_i - \overline{x})u_1\\
L=i=1N((xix)Tu1)2s.t.u1Tu1=1L = \sum_{i=1}^N ((x_i - \overline{x})^Tu_1)^2\\ s.t. u_1^Tu_1 = 1
i=1Nu1T(xix)(xix)u1u1T(i=1N(xix)(xix))u1u1TSu1\sum_{i=1}^N u_1^T(x_i - \overline{x})(x_i - \overline{x})u_1\\ u_1^T (\sum_{i=1}^N (x_i - \overline{x})(x_i - \overline{x})) u_1\\ u_1^T S u_1
u1^=аргумент maxu1TSu1u1Tu1=1\hat{u_1} = \argmax u_1^T S u_1\\ u_1^T u_1 = 1
L(u,λ)=u1TSu1+λ(1u1Tu1)L(u,\lambda) = u_1^T S u_1 + \lambda(1-u_1^Tu_1)\\
Su1=λu1Su_1 = \lambda u_1