предисловие
Что такое анализ главных компонент? Давайте сначала посмотрим на график эллипса. Если бы вас попросили найти линию, точки, на которых сопоставляются все точки эллипса, являются наиболее разбросанными и сохраняют больше всего информации. Как бы вы выбрали это?линия? Если это показано на рисунке ниже, будет выбрана горизонтальная линия.Это необходимо для представления как можно большего количества двумерных данных в одномерном виде.Что касается многомерных данных, могут ли они быть представлены более низкомерными данные как можно больше?
Как использовать двумерную плоскость для максимального представления эллипсоида?
Мысль
Анализ основных компонентов — это статистический метод, упрощающий данные. Это линейное преобразование, преобразующее данные в новую систему координат, так что первая по величине дисперсия любой проекции сопоставляется с первой главной компонентой, а вторая по величине дисперсия сопоставляется к первому основному компоненту Дисперсия отображается на второй главный компонент. Если отбросить многомерные главные компоненты, то, как правило, могут быть сохранены признаки, вносящие наибольший вклад в дисперсию. В некоторых аспектах основные свойства данных могут быть сохранены. Конечно, для того, чтобы данные выглядели лучше, мы переместим центр оси координат в центр данных, что может сделать обработку данных более удобной.
по математике
Математически мы используемнорма в квадрате (Квадрат нормы принимает минимальное значение в той же позиции, что и он сам, монотонно возрастая, и свойство лучше) для расчета, x - это вход,Для оптимального кодирования:
Из вышеизложенного видно, что для получения c требуется только одно умножение матриц. Определите действие рефакторинга:
после комплексаполучить, можно доказать методом математической индукции, что матрица D может быть получена изпервыйОн состоит из собственных векторов, соответствующих наибольшим собственным значениям.
Суммировать
Метод анализа основных компонентов в основном используется для уменьшения размерности данных, и цель состоит в том, чтобы максимально уменьшить объем данных при минимизации потери исходных данных.
- Эта статья была впервые опубликована сRAIS