Анализ главных компонентов позволяет использовать низкоразмерные данные для представления наиболее важных особенностей многомерных сложных данных. Идея PCA состоит в том, чтобыкарты пространственных признаков вмногомерное пространство,ЭтотРазмерный объект — это совершенно новый ортогональный объект, построенный заново.размерные характеристики, а не простоУдалить остальное из размерных признаковразмерные особенности. На основе исходного PCA, по характеристикам данных, исследователи предлагают различные варианты PCA, но основная идея одна и та же. Например, PCA ядра для нелинейных данных, CCIPCA для данных последовательности, 2DPCA, 2D2DPCA и BDPCA для данных двумерного изображения и т. д. Далее сначала подробно представлена идея PCA, а затем кратко представлены другие версии алгоритма PCA.
1. Принцип ППШ
(Этот раздел относится кВнедрение алгоритма анализа главных компонентов (PCA) с нуля) PCA можно определить как ортогональную проекцию данных на низкоразмерное линейное пространство, называемое основным подпространством, так что дисперсия проецируемых данных максимальна (Hotelling, 1933), теория максимальной дисперсии. Эквивалентно, ее также можно определить как линейную проекцию, минимизирующую среднюю стоимость проекции, т. е. теорию минимальной ошибки. Средняя стоимость проекций — это средний квадрат расстояния между точками данных и их проекциями (Пирсон, 1901).
1.1 Теория максимальной дисперсии
При обработке сигналов считается, что сигнал имеет большую дисперсию, а шум — малую.Отношение сигнал/шум — это отношение дисперсии между сигналом и шумом.Чем больше, тем лучше. Из-за того, что мы думаем, лучшийразмерные характеристикиРазмерные точки выборки преобразуются вТогда выборочная дисперсия в каждом измерении будет максимально большой.
Сначала рассмотрим одномерное пространствопроекция на. мы можем использоватьразмерный векторОпределяет направление этого пространства. Для удобства и без ограничения общности будем считать, что единичный вектор выбран таким, что.
(Предполагая, что данные имеют нулевое среднее значение) Как показано на рисунке выше, красная точка представляет исходную точку выборки.,Наклон синей линии также является вектором направления линии и единичным вектором.Синяя точка на линии представляет исходную точку выборки.существуетпроекция на. Легко узнать, что расстояние точки проекции от начала координат равно, поскольку среднее значение каждого измерения этих исходных точек выборки равно 0, оно проецируется наСреднее значение точек выборки по-прежнему равно 0.
Предположим, исходный набор данных, наша цель — найти оптимальное проекционное пространство,вявляется единичным вектором иявляется единичным вектором ииОртогональный, что лучше? является проекцией исходной точки выборки наПосле вышеизложенного дисперсия прогнозируемых точек выборки максимальна.
Поскольку среднее значение после проекции равно 0, общая дисперсия после проекции равна:
висходный набор данныхковариационная матрица (посколькуимеет среднее значение 0, из-за несмещенной оценки общая ковариационная матрица делится на, то есть в м).
Помните, то есть
Умножьте обе части вышеприведенного уравнения влево, отмечая(единичный вектор), затемтакэто матрицаСобственные векторы, соответствующие собственным значениям .
Чтобы максимизировать общую дисперсию после прогнозирования, то естьсамый большой и, следовательно, лучший вектор проекцииявляется собственным значениемСобственный вектор, соответствующий наибольшему, поэтому, когда мы устанавливаемКогда он установлен равным вектору с наибольшим собственным значением, дисперсия достигает своего максимального значения. Этот вектор признаков называется первым главным компонентом.
Мы можем определить дополнительные основные компоненты поэтапным образом, выбирая новое направление как тот, который максимизирует прогнозную дисперсию между всеми возможными направлениями, которые являются ортогональными тем, которые уже рассматриваются. если мы рассмотримОбщий случай размерного проекционного пространства, тогда оптимальная линейная проекция, которая максимизирует дисперсию проецируемых данных, задается матрицей ковариации данныхизсобственные векторыопределение, соответствующеенаибольшее собственное значение. Это легко доказать по индукции.
Следовательно, нам нужно только выполнить разложение по собственным значениям ковариационной матрицы, чтобы получить предварительную оценку.Собственный вектор, соответствующий большому собственному значению, является лучшимОсобенности реставрации, и этоФункции обновления являются ортогональными. прежде чем получитьКусокПозже исходный набор данныхНовые образцы можно получить путем трансформации.
1.2 Теория наименьших квадратов ошибок
Как показано на рисунке выше, предполагая такую двумерную точку выборки (красная точка), в соответствии с теорией максимальной дисперсии, которую мы объяснили ранее, наша цель состоит в том, чтобы найти прямую линию, чтобы дисперсия точки, спроецированная из выборки указать на прямую или плоскость является самым большим. Суть в том, чтобы найти прямую или плоскость, поэтому мерой того, хороша ли прямая, является не только метод максимизации дисперсии. Вспоминая линейную регрессию, которую мы впервые изучили, цель состоит в том, чтобы найти линейную функцию, чтобы прямая линия лучше всего соответствовала точкам выборки, поэтому можем ли мы считать, что лучшая прямая линия — это прямая линия после регрессии? Во время регрессии наш метод наименьших квадратов измеряет расстояние между точками выборки и осью линии. Например, в этой задаче функция, метка класса. Метод наименьших квадратов измеряет расстояние во время регрессии. Если метод регрессии используется для измерения наилучшей прямой линии, то регрессия выполняется непосредственно на исходной выборке, которая не имеет ничего общего с выбором признаков.
Поэтому мы намерены использовать другой метод оценки качества линии, используя расстояние от точки до линииизмерять.
Естьточки выборки, каждая точка выборкиизмерение. точка выборкиПроекция на прямую записывается как, то мы хотим минимизировать
Эта формула называется наименьшей квадратичной ошибкой.
Сначала мы определяем точку, через которую проходит линия, предполагая, что мы хотим найти точку в пространствепредставлять этоТочка выборки, слово «представитель» не определяется количественно, поэтому, если мы хотим провести количественную оценку, нам просто нужно найтиточка измерения, так чтоминимум. вфункция оценки квадрата ошибки. ПредположениезаСреднее значение выборочных точек, т. е.но
Очевидно, что второй член приведенного выше уравнения совпадает снеактуально, следовательно,существуетимеет минимальное значение.
Далее определяем вектор направления линии. Мы уже знаем, что прямая проходит через точку, предполагая, что направление линии является единичным вектором. Тогда любая точка на прямойимеют:,в,дак точкерасстояние.
Мы переопределяем ошибку наименьшего квадрата:
В этот момент точки сгруппированы вокруг новой оси, потому что для этого мы используем метод наименьших квадратов. Кроме того, в книге PRML есть подробная разработка с точки зрения линейного подпространства, и заинтересованные читатели могут ознакомиться с ней.
преимущество:
Это неконтролируемое обучение и полностью без параметров. В процессе расчета PCA нет необходимости вручную задавать параметры или вмешиваться в расчет по какой-либо эмпирической модели, конечный результат связан только с данными и не зависит от пользователя.
Технология PCA может использоваться для уменьшения размерности данных, и в то же время можно отсортировать важность вновь полученного «осевого» вектора, а наиболее важную часть на переднем плане можно взять в соответствии с потребностями, и последнее измерение может быть опущено, что может привести к уменьшению размерности и, таким образом, упростить модель или эффект сжатия данных. При этом информация исходных данных сохраняется в наибольшей степени.
Главные компоненты ортогональны, что позволяет устранить взаимное влияние между исходными компонентами данных.
Метод расчета прост и легко реализуем на компьютере.
недостаток:
Если пользователь имеет определенные предварительные знания об объекте наблюдения и владеет некоторыми характеристиками данных, но не может вмешиваться в процесс обработки посредством параметризации и других методов, ожидаемый эффект может быть не получен, а эффективность невысока.
Главные компоненты с небольшой долей вклада часто могут содержать важную информацию о различиях выборки.
Является ли ортонормированное векторное пространство матрицы собственных значений уникальным, подлежит обсуждению.
В случае негауссовского распределения опорная точка, полученная методом PCA, может быть неоптимальной, а дисперсия не может использоваться в качестве критерия измерения важности при нахождении опорной точки.
1.3 Разложение по собственным значениям при многомерных данных
В реальной жизни из-за высокоразмерных характеристик выборки (каждый пиксель распознавания изображения является размерностью) это приведет к ковариационной матрицеЭто очень большой, и компьютер трудно хранить и вычислять Как сделать разложение по собственным значениям для многомерных данных? мы знаем, рассмотрим матрицу подстановки, если выборок 100, размерностей 10000, топредставляет собой 10000-мерную квадратную матрицу, иПросто 100-мерная квадратная матрица. Делаем следующий вывод:поэтому, спросивСобственные значения и собственные векторы , чьи собственные значения равныСобственные значения , собственные векторы которых умножаются на случайный векторэто, чтобы завершить разложение по собственным значениям многомерных данных (можно получить только некоторые из первых нескольких главных компонент).
Проверять:исобственные значения равны? Дополнение: В общем,иСобственные значенияКоличество собственных значений.
Если существует обратимая матрицасделать,, то матрицас матрицейсходство. Если две матрицы подобны, то они имеют одинаковый ранг, один и тот же определитель, одинаковую трассу (сумму всех собственных значений или сумму элементов главной диагонали), и обе имеют одинаковые собственные значения (может быть, еще несколько нулей) собственные значения).
2. Алгоритм инкрементного анализа главных компонентов CCIPCA [1]
Откровенный инкрементальный анализ основных компонентов без ковариаций Прямой бесковариационный инкрементный анализ основных компонентов.
Предположим, что последовательность входных векторов;Среднее значение входного изображения равно, его ковариационная матрицаA(n)=\frac{1}{n}\sum_{t=1}^n[u'(t)-m(n)][u'(t)-m(n)]^T=\frac{1}{n}\sum_{i=1}^n u(t)u(t)^T \tag{1}здесь
ПервыйФормулы для вычисления собственных значений и собственных значений и собственных векторов:,вво-первыхНомер, который нужно запрашивать при входевектор признаков,является соответствующим собственным значением . Чтобы ускорить итерацию алгоритма CCIPCA, вся итерация представляет собой произведение собственного значения и собственного векторавыполнено, пустьпри вводеv_i(n)=\lambda_ix_i(n)=A(n)x_i(n) \tag{2}Подставим (1) в (2), получимv_i(n)=\frac{1}{n}\sum_{t=1}^n u(t)u(t)^T x_i(n)\tag{3}Если произведение собственного значения и собственного вектора получено путем итерации, поскольку собственные векторы нормализованы, поскольку формула (2) является модулем (внутренний продукт, открытый корень), она может быть получена. Итерация принимает формулу (3), положимпримерноПодставив в (3), основную итеративную формулу CCIPCA можно получить преобразованием,v_i(n)=\frac{n-1}{n}v_i(n-1)+\frac{1}{n}u(n)u(n)^T\frac{v_i(n-1)}{||v_i(n-1)||} \tag{4}
взначение итерации предыдущего шагаВес второго предметаЭквивалентно размеру шага корректировки итерации.как первыйитеративный вектор новых пар входных данныхкорректировка, в итерацияхпостепенно приближаться к желаемомувектор признаков. Уравнение (4) можно использовать для итерации собственных векторов с разными порядковыми номерами, только входной векторразные. При нахождении собственного вектора, соответствующего наибольшему собственному значению,Непосредственно собирают для глаз роботовданные. При поиске собственных векторов 2-й, 3-й и даже более высокой размерности требуется следующая обработка: первый собственный вектор получен путем итерации., и положиСпроецируйте на предыдущий собственный вектор, который был получен (теперь первый собственный вектор), и получите остаточное изображение, выраженный следующим образом, В качестве исходных данных для нахождения второго собственного вектора аналогичным образом могут быть получены 3-й, 4-й, .... собственные векторы. Поскольку остаточное изображение и изображение, восстановленное предыдущим собственным вектором, ортогональны, можно получить все взаимно ортогональные собственные векторы. Кроме того, каждый раз, когда вводится новый фрагмент данных, среднее значение также должно обновляться.Для формулы (1) введите первоеСреднее значение изображений следующее:
3. KPCA
Супер всеобъемлющий блог о KPCA
- оригинальный ППШ
- использовать функциюпреобразовать данныекарта в многомерное пространство
- сделатьпридется
- Умножьте обе части влевопридется
- Из свойств функции ядра мы можем получить
Обратите внимание, что вектор признаковдолжно быть дальшеРассчитано. но,Это невозможно вычислить, поэтому нет возможности получить собственные векторы.
Здесь мы анализируем, можно ли его использовать напрямуюЧтобы уменьшить размерность данных, ответ положительный.
Если приходят новые данные, необходимо использовать приведенные выше результаты для получения данных уменьшения размерности:
Разница между PCA и KPCA
- PCA по-прежнему является хорошим методом анализа.Когда данные имеют нелинейное многообразное распределение или индикаторы имеют нелинейную зависимость, эффект может быть не особенно хорошим для метода линейного анализа, но следует отметить, что он также не является Линейный метод анализа.В фактических экономических показателях существует линейная корреляция (информационная избыточность), что соответствует статистическим законам, а полностью нерелевантные экономические данные встречаются крайне редко.Он имеет преимущества простого расчета PCA, отсутствия предварительных знаний и без настройки параметров.
- PCA не совсем то же самое, что KPCA с линейным ядром, для N выборок данных с P индикаторами. Ковариационная матрица, рассчитанная с помощью PCA, представляет собой матрицу размерности PXP. Количество основных компонентов, которые она может извлечь, равно P, а KPCA вычисляется из матрицы ядра. Максимальный главный компонент, который может быть извлечен, равен N. Чтобы удовлетворить выборку среднее значение в пространстве признаков равно нулю, а также требуется специальная обработка матрицы ядра K, что также является причиной несогласованности со скалярным произведением линейного ядра и исходной выборки.
- Функцию ядра KPCA и параметры ядра выбрать сложно. Собственный вектор ковариационной матрицы PCA соответствует пропорции главных компонентов каждого индекса, так что главные компоненты могут быть объяснены исходным облаком индексов, в то время как собственный вектор KPCA основан на собственном векторе матрицы ядра, которая не имеет соответствующей связи с исходным индексом, поэтому главный компонент ядра объясняет. Во-вторых, после того, как KPCA проецирует индикаторы в многомерное пространство признаков, и фактические данные обрабатываются в исходном пространстве, стоит дополнительно изучить, являются ли его значения имеют смысл сортировки в исходном пространстве.
4. 2DPCA[2]
ПредполагатьдаОбразец изображений,. Сначала вычислите ковариационную матрицу, которая является общей матрицей рассеяния. вявляется средним значением всей выборки.
рассчитатьСобственные значения и собственные векторы берут кумулятивную ставку вклада собственных значенийСоответствующие собственные векторы образуют матрицу проекции. но,этоХарактеристики. Можно знать, что оригинальный двумерный размер изображения, который сейчас сводится к,основан набыть уверенным. То есть после выполнения извлечения признака сжимается только количество битов вектора-столбца матрицы изображения, а количество битов вектора-строки остается неизменным.
5. 2D2DPCA
Так же, как 2DPCA, который уменьшает измерение только в направлении столбца, эффект уменьшения размера не идеален. Для лучшего уменьшения размерности D.Q.Zhang и Z.H.Zhou предложили метод двунаправленного двумерного анализа главных компонентов (2D2DPCA), то есть обработка 2DPCA выполняется как в направлениях строк, так и в столбцах.
После обработки всех обучающих выборок вышеуказанным 2DPCA получаются новые обучающие выборки.,в. Построить ковариационную матрицу на новых образцах
Аналогично, спроситеСобственные значения и собственные векторы принимают совокупный вклад собственных значений какСобственные векторы , получить матрицу проекции в направлении строки.Проекция.
До сих пор оптимальная матрица проекции двух направлений проекциииполучаются, для изображенияОкончательная матрица уменьшения размера:, восстановленное изображение
6. BDPCA
BDPCA выполняет уменьшение размерности данных в направлениях строк и столбцов соответственно. Преобразуйте матрицу образца изображенияразбить наКусокВектор-строка , тогда общая матрица расхождения в направлении строки:
в,является средним значением матрицы образца изображения. прежде чем приниматьСобственные векторы, соответствующие наибольшим собственным значениям, образуют матрицу проекции направления строки как
Точно так же общая матрица расхождения в направлении столбца и фронтаСобственные векторы, соответствующие наибольшим собственным значениям, образуют матрицу проекции направления столбца соответственно:
Матрица образца изображенияСоответствующая матрица признаков
Размер матрицы признаков BDPCA составляет всего, поэтому объем вычислений намного меньше, чем у CCIPCA. Но BDPCA — это двумерное пакетное вычисление.
использованная литература
[1] Juyang Weng, Yilu Zhang и Wey-Shiuan Hwang, «Откровенный инкрементальный анализ главных компонентов без ковариаций», IEEE Transactions on Pattern Analysis and Machine Intelligence, т. 25, № 8, стр. 1034–1040, август 2003 г. [2] Jian Y, David Z, Frangi AF и др. Двумерный PCA: новый подход к представлению и распознаванию лиц на основе внешнего вида [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2004, 26(1). ): 131-137.