Как канонический корреляционный анализ анализирует взаимосвязь между двумя наборами переменных

предисловие

Когда мы анализируем корреляцию между двумя наборами переменных, такими как

, самым примитивным методом является непосредственное вычисление ковариационной матрицы X и Y, матрица имеет m * n значений. С помощью ковариационной матрицы получается корреляция между двумя переменными, например, c_ij — это корреляция между переменными X_i и Y_j.

Этот метод анализа рассматривает только корреляцию между одним измерением переменной c_ij X_i и переменной Y_j и не учитывает корреляцию между X и Y. Кроме того, форма ковариационной матрицы также громоздка.

Канонический корреляционный анализ

Используя идею анализа главных компонентов, найдите соответствующие линейные комбинации двух групп переменных, а затем обсудите связанные проблемы между линейными комбинациями.

Найдите первую пару линейных комбинаций в двух наборах переменных так, чтобы они имели наибольшую корреляцию; затем найдите вторую пару линейных комбинаций в двух наборах переменных соответственно, чтобы они имели вторую наибольшую корреляцию, и они соответственно Первая линейная комбинация в этой группе не коррелирована. И так далее, чтобы найти другие линейные комбинации, следующим образом извлечь две пары линейных комбинаций, где u_1 u_2 независимы друг от друга, v_1 v_2 независимы друг от друга, а u_1 v_1 связаны.

Предполагая, что извлекается r раз, окончательно извлекается r группа переменных,

Затем исходные переменные представляются линейной комбинацией, а корреляция между ними используется для представления корреляции исходных переменных.

в чем суть

Суть канонического корреляционного анализа состоит в том, чтобы выбрать несколько репрезентативных линейных комбинаций переменных из двух групп переменных и использовать корреляцию этих линейных комбинаций для представления корреляции исходных двух групп переменных.

Решите линейные комбинации

Взяв в качестве примера первый набор линейных комбинаций, здесь необходимо решить включенные коэффициенты.

Матричная форма,

Рассматривайте линейную функцию только тогда, когда дисперсия равна 1, тогда на самом деле существует условие ограничения,

, находим постоянный вектор

, так что коэффициент корреляции

чтобы достичь максимума.

Дисперсия, соответственно,

Тогда ковариация u_1 v_1 равна,

Также у нас есть,

Коэффициент корреляции между ними равен

Что нам нужно сделать, так это найти a_1 b_1, чтобы максимизировать коэффициент корреляции, и в то же время учесть упомянутые ранее ограничения D(u_1) = D(v_1) = 1, которые могут предотвратить повторение результатов, тогда коэффициент корреляции становится,

Чтобы найти условное экстремальное значение, вы обычно можете ввести множители Лагранжа, чтобы найти максимальное значение, и решить a_1 ^ T b_1 ^ T.

Для линейных комбинаций других групп решение также получается по описанной выше процедуре.

Количество линейных комбинаций

Линейная комбинация непрерывно извлекается в соответствии с размером корреляции линейной комбинации, наибольшей является первая группа, второй наибольшей является вторая группа и так далее, пока не будет извлечено r

как анализировать

Например, в первой группе линейных комбинаций можно вычислить коэффициенты корреляции между двумя группами переменных и u1 и v1.Если определенное количество переменных имеет большой коэффициент корреляции с u1, то u1 представляет собой общий индекс этих переменные, а можно взять дополнительную по переменной Имя. А также, если коэффициент корреляции между v1 и несколькими другими переменными велик, то v1 может представлять несколько переменных.

Тогда, если коэффициент корреляции между u1 и v1 велик, это означает, что несколько переменных, представленных u1, тесно связаны с несколькими переменными, представленными v1. То же самое справедливо и для других линейных комбинаций: сначала найдите несколько переменных, связанных с u2 и v2, а затем посмотрите на коэффициент корреляции между u2 и v2, чтобы определить, связаны ли они между собой.

============Время рекламы================

Меню официальной учетной записи было разделено на «распределенное», «машинное обучение», «глубокое обучение», «НЛП», «глубина Java», «ядро параллелизма Java», «исходный код JDK», «ядро Tomcat», и т.д. Там может быть один стиль, чтобы удовлетворить ваш аппетит.

Моя новая книга «Анализ проектирования ядра Tomcat» продана на Jingdong, и нуждающиеся друзья могут ее купить. Спасибо друзья.

Зачем писать «Анализ проектирования ядра Tomcat»

=========================

Добро пожаловать, чтобы следовать: