"Это седьмой день моего участия в ноябрьском испытании обновлений, ознакомьтесь с подробностями события:Вызов последнего обновления 2021 г."
В многомерном статистическом анализеАнализ главных компонентов(Английский:Principal components analysis,PCA) — метод статистического анализа, упрощающий наборы данных. Он использует ортогональное преобразование для линейного преобразования наблюдений ряда потенциально коррелированных переменных, тем самым проецируя значения ряда линейно некоррелированных переменных, которые называются главными компонентами. В частности, главный компонент можно рассматривать как линейное уравнение, содержащее ряд линейных коэффициентов, указывающих направление проекции. PCA чувствителен к регуляризации или предварительной обработке исходных данных (относительное масштабирование).
Основная идея
Сначала данные D центрируются, а затем через преобразование находится ось координат, и данные проецируются на новую ось координат, так что проецируемые данные на новую ось координат более рассеяны, то есть дисперсия данных больше, на самом деле это наименьшее Реконструкция расстояния, то есть удаление некоторых важных особенностей данных.
данные
поболтать
D={(x1,y1),(x2,y2),⋯,(xi,yi)}N
вxiеRm
когдаm=1случай, среднее значение и дисперсия
X=N1i=1∑NxiS=N1i=1∑N(xi−x)
когдаm>1случай, среднее значение и дисперсия
X=N1i=1∑NxiS=N1i=1∑N(xi−x)(xi−x)T
Затем выразите математическое ожидание и дисперсию в матричной форме.
ожидать
x=N1i=1∑Nxix=N1(x1,x2,⋯,xn)(1,1,⋯,1)Tx=N1XT1N
В нашей предыдущей линейной задаче мы использовали матрицу X для представления матрицы N выборок, каждая строка матрицы X является выборкой, поэтому X равноn×mm – столбец проб,X=(x1,x2,⋯,xn)TТак что это может бытьXT=(x1,x2,⋯,xn)Здесь среднее значениеm×nиn×1,такxзаm×1вектор
дисперсия
S=N1i=1∑N(xi−x)(xi−x)TS=(x1−x,x2−x,⋯,xN−x)−x(1,1,⋯,1)N1XT(IN−N11N1NT)(IN−N11N1NT)TX
H=(IN−N11N1NT)
Тогда H обладает следующими свойствами
H=HTH=H2
Наконец, среднее значение и дисперсия представлены в матричной форме.
x=N1XT1NS=N1XTHX
проекция данных
(xi−x)u1
L=i=1∑N((xi−x)Tu1)2s.t.u1Tu1=1
i=1∑Nu1T(xi−x)(xi−x)u1u1T(i=1∑N(xi−x)(xi−x))u1u1TSu1
u1^=argmaxu1TSu1u1Tu1=1
L(u,λ)=u1TSu1+λ(1−u1Tu1)
Su1=λu1