Это 12-й день моего участия в августовском испытании обновлений. Узнайте подробности события:Испытание августовского обновления
Эта статья является шестой в серии заметок курса Эндрю Нг по машинному обучению и в основном посвящена обычно используемому алгоритму уменьшения размерности данных — алгоритму анализа основных компонентов PCA, и в то же время расширяет другой алгоритм — анализ независимых компонентов ICA.
Анализ основных компонентов PCA
Прежде чем изучать анализ главных компонентов, давайте сначала разберемся, что такое уменьшение размерности.
Что такое уменьшение размерности
Ссылаясь на определение арбузной книги,Снижение размерностиТо есть исходное многомерное атрибутивное пространство преобразуется в низкоразмерное подпространство посредством некоторого математического преобразования. В этом подпространстве плотность выборки сильно увеличивается, и вычисление расстояния становится проще.
На самом деле уменьшение размерности — это, как правило, проекция от высокоразмерного к низкоразмерному.
Например, на рисунке ниже для трехмерных данных преобразование в двумерное означает проецирование данных из исходного трехмерного пространства на двумерную плоскость, что реализует уменьшение размерности.
PCA (Principal Component Analysis)
Анализ главных компонент является наиболее распространенным алгоритмом уменьшения размерности. PCA может извлекать основные компоненты из избыточных функций, что повышает скорость обучения модели без потери качества модели.
Ошибка проекции:
Ошибка проецирования такова: данные проецируются на вектор (т. е. вектор направления), проходящий через начало координат, а собственный вектор в это время представляет собой длину перпендикуляра к вектору направления.
Цель PCA состоит в том, что мы хотим найти вектор направления (Vector direction), чтобы среднеквадратическая ошибка этой ошибки проецирования была как можно меньше.
Очевидно, что это пример с точностью до одного измерения. Полное описание этого PCA:
Если вы хотите свести n-мерные данные к k-мерным, цель состоит в том, чтобы найти такой набор векторов, так что общая ошибка проецирования всех данных, спроецированных на этот набор векторов, минимизирована. На самом деле этот набор векторов должен быть ортогонален в исходном пространстве. Этот новый k-мерный ортогональный признак также называется главным компонентом, который представляет собой k-мерный признак, реконструированный на основе исходного n-мерного признака.
Поток алгоритма
-
Средняя нормализация.
-
Вычислите ковариационную матрицу:
-
пройти черезсингулярное разложениеВычислить ковариационную матрицуизВектор признаков:
-
отперед выборомвектора, получитьМатрица измерений, сВыражать.означает, что мы хотим преобразовать данные изразмер внизизмерение.
-
Вычислить новые собственные векторы:
Понятно, что конечный результат закономерен.измерение.
Как правило, чтобы получить главные компоненты, сначала вычисляют ковариационную матрицу матрицы данных, затем получают собственные векторы ковариационной матрицы посредством разложения по сингулярным значениям, а затем выбирают k собственных векторов с наибольшим собственным значением, то есть наибольшей дисперсией. матрица.
Резюме, PCA, как метод уменьшения размерности для неконтролируемого обучения, нуждается только в разложении по собственным значениям для сжатия и шумоподавления данных. Поэтому он широко используется в практических сценариях.
Независимый компонентный анализ ICA
Вышеупомянутый PCA представляет собой процесс извлечения информации для уменьшения размерности исходных данных, а следующий упомянутыйНезависимый компонентный анализ или ICA (независимый компонентный анализ), представляет собой процесс разделения информации.
введение проблемы
Предпосылка ICA состоит в том, что наблюдаемая переменная представляет собой линейную комбинацию нескольких статистически независимых компонентов.
Начнем с классической задачи о коктейльной вечеринке. Проблема вот в чем: в комнате естьЛюди устраивают вечеринку, и они могут говорить одновременно. расставлены в разных углах комнатыЗвуковые приемники, каждый приемник может одновременно захватывать каждый моментНаложение голосов отдельных голосов. Расстояние между каждым приемником и каждым человеком разное, поэтому перекрытие звука, принимаемого каждым приемником, также разное. После вечеринки мы получаемзвуковые образцы, каждый образец в определенный момент,отНабор звуковых данных, собранных ресивером, как из этого получитьнабор образцов изолированА как насчет соответствующих голосов динамиков?
Давайте внимательнее посмотрим на описание проблемы, используядля представления источника звукового сигнала, издаваемого всеми во все времена, этоматрица, каждая строка представляет человекаПоследовательность звуковых сигналов за один раз, всеголиния, т.е.личный.
отбирается каждый разЛинейная комбинация отдельных голосовых данных. такжематрица. этовремя, общая выборкагрупповые образцы, и каждый образецразмерный. верхний индекс здесьозначает момент,представляет собой компонент, представляющийвсе, кто получает во все временаЛинейная комбинация звуковых сигналов.
Итак, имеем следующую модель:
в,— неизвестная матрица смешивания, очевиднодаразмерный и должен быть полного ранга.
Текущая ситуациянеизвестно,известно, мы должны найти способзапуститьи, этот процесс также называется слепым разделением сигналов. Звучит потрясающе, так что давайте посмотрим поближе.
алгоритм
Без ограничения общности можно считать, что как смешанные переменные, так и независимые компоненты имеют нулевое среднее значение; если исходные данные не имеют нулевое среднее значение, мы можемСтандартизируйте так, чтобы модель была моделью с нулевым средним значением.
Сначала сделаем преобразование, пусть,Тот,также может быть выражено как, поэтому для каждого компонента исходного сигнала имеем:
Затем принимаем звуковой сигнал от каждого человеканезависимы, и существует плотность вероятности, то дано времяСовместная плотность вероятности исходного сигнала равна:
имеют, мы хотим получить вероятность дискретизированного сигнала, как ее получить?
Давайте сначала вспомним знание теории вероятностей. Мы знаем, что плотность вероятности может быть получена путем вывода кумулятивной функции распределения. Давайте сначала найдем кумулятивную функцию распределения:
Затем попросите гида:
Итак, есть:
на основе оценки максимального правдоподобия
Функция правдоподобия:
Даны обучающие выборки, найдите логарифмическое правдоподобие:
Классические предположения и неопределенности ICA
классическая гипотеза
1. Каждый компонент независим друг от друга
Это один из самых основных и важных принципов ICA, и очень интересно, что как только это предположение дано, мы можем решить модель определенным образом. Объяснение этому состоит в том, что если любая последовательность случайных величин (x1,x2,...,xn) статистически независима друг от друга, то это означает, что мы не можем получить никакой информации о случайной величине xj из остальных переменных.
2. Очень сильное предположение ICA:Независимые компоненты подчиняются негауссовскому распределению..
Это связано с тем, что если исходный сигнал является гауссовским, то есть все независимые компоненты являются гауссовыми, то их совместное распределение вероятностей будет равномерным, а плотность будет полностью симметричной, как показано в двумерном гауссовском распределении на рисунке ниже . Как видно извне, гауссова переменнаяРаспределение любого ортогонального преобразования имеет иТочно такая же раздача. Поскольку случайная величина гауссовского распределения имеет характеристику, состоящую в том, что кумулянт высокого порядка равен 0, может быть бесконечное число A после разложения с помощью ICA.
Разложение, выполненное ICA, уникально, если исходный сигнал не является гауссовым. Вот почемуКак правило, в стандартном анализе независимых компонентов не более чем одному компоненту разрешается подчиняться распределению Гаусса..
3. Предположим, что матрица смешивания A является квадратной матрицей
Это очевидно, чтобы сделать A обратимым и легко вычисляемым.
Неопределенность
с одинаковыми статистическими характеристикамиВозможно, из двух разных систем:
Также можно понять, что дискретизированный сигнал и шумовой сигнал неидентифицируемы. Из приведенной выше формулы можно найти, что после линейного преобразования матрицы смешения A и s становятся неуникальными, поэтому мы не можем однозначно определить исходный сигнал.
Факторы, которые ICA не может определить
- Невозможно определить дисперсию независимых компонентов
- Невозможно определить порядок независимых компонентов
резюме
Ни PCA, ни ICA не требуют от вас конкретных предположений о распределении исходного сигнала.
Если наблюдаемый сигнал является гауссовским, то исходный сигнал в это время также является гауссовым, и PCA и ICA в это время эквивалентны.
Большинство алгоритмов ICA требуют предварительной обработки данных:Сначала используйте PCA, чтобы получить y, а затем нормализовать каждый компонент y (то есть разделить каждый компонент на его собственное стандартное отклонение), чтобы получить z. Z, полученный после предварительной обработки, удовлетворяет следующим свойствам:
- Отдельные компоненты z не коррелированы;
- Дисперсия каждого компонента z равна 1.