Уменьшение размерности данных: анализ главных компонентов

предисловие

Что такое анализ главных компонент? Давайте сначала посмотрим на график эллипса. Если бы вас попросили найти линию, точки, на которых сопоставляются все точки эллипса, являются наиболее разбросанными и сохраняют больше всего информации. Как бы вы выбрали это?линия? Если это показано на рисунке ниже, будет выбрана горизонтальная линия.Это необходимо для представления как можно большего количества двумерных данных в одномерном виде.Что касается многомерных данных, могут ли они быть представлены более низкомерными данные как можно больше?

m17

Как использовать двумерную плоскость для максимального представления эллипсоида?

m17

Мысль

Анализ основных компонентов — это статистический метод, упрощающий данные. Это линейное преобразование, преобразующее данные в новую систему координат, так что первая по величине дисперсия любой проекции сопоставляется с первой главной компонентой, а вторая по величине дисперсия сопоставляется к первому основному компоненту Дисперсия отображается на второй главный компонент. Если отбросить многомерные главные компоненты, то, как правило, могут быть сохранены признаки, вносящие наибольший вклад в дисперсию. В некоторых аспектах основные свойства данных могут быть сохранены. Конечно, для того, чтобы данные выглядели лучше, мы переместим центр оси координат в центр данных, что может сделать обработку данных более удобной.

高斯分布

по математике

Математически мы используем $L^2$ норма в квадрате ( $L^2$ Квадрат нормы принимает минимальное значение в той же позиции, что и он сам, монотонно возрастая, и свойство лучше) для расчета, x - это вход, $c^*$ Для оптимального кодирования:

c^*=(L^2)^2=argmin_c||xg(c)||_2^2 \\\\ =(xg(c))^T(xg(c)) \\\\ =x^ Tx-2x^Tg(c)+g(c)^Tg(c) \\\\ =argmin_c-2x^TDc+c^TI_lc \\\\ (где c=f(x), g(c)= Dc) \\\\ \следовательно\nabla_c(-2x^TDc+c^Tc)=0 \\\\ c=f(x)=D^Tx

Из вышеизложенного видно, что для получения c требуется только одно умножение матриц. Определите действие рефакторинга:

r (x) = g (f (x)) = DD ^ Tx \\\\ D ^ * = argmin_D \ sqrt {\ sum_ {i, j} (x_j ^ {(i)} -r (x ^ {( i)})_j)^2} \\\\ где D^TD=I_l

после комплексаполучить, можно доказать методом математической индукции, что матрица D может быть получена из $X^TX$ первый $l$ Он состоит из собственных векторов, соответствующих наибольшим собственным значениям.

Суммировать

Метод анализа основных компонентов в основном используется для уменьшения размерности данных, и цель состоит в том, чтобы максимально уменьшить объем данных при минимизации потери исходных данных.

Эта статья была впервые опубликована сRAIS