Основы машинного обучения — уменьшение размерности (1)

машинное обучение искусственный интеллект
Основы машинного обучения — уменьшение размерности (1)

"Это 6-й день моего участия в ноябрьском испытании обновлений, ознакомьтесь с подробностями события:Вызов последнего обновления 2021 г."

Когда дело доходит до уменьшения размерности, первое, что вы подумаете о PCA, это методы уменьшения размерности кодировщиков и декодеров и векторов слов, но сегодня мы можем не говорить о каких-то конкретных методах уменьшения размерности, а встать на определенную высоту, чтобы посмотреть на уменьшение размерности.

На самом деле, когда мы решаем задачи классификации, мы обычно используем концепцию расстояния. Зачем нам нужно уменьшать размерность? Обычно наши данные представляют собой многомерные данные, а наши данные разрежены в многомерном пространстве.

измерение2n2^nДобавьте измерение, и количество данных возрастет в геометрической прогрессии

На самом деле в машинном обучении существует много методов уменьшения размерности, но мы можем условно разделить их на две основные категории:

Матричная факторизация

  • Principal Component Analysis
  • Sparse PCA
  • Linear Autoencoder
  • Latent Dirichlet Allocation
  • Non-negative Matrix Factorization
  • Generalised Low Rank Models
  • Word2Vec
  • GloVe
  • Probalistic PCA

Матричная факторизация на самом деле относится к этому широкому классу методов, начиная от тематического моделирования и заканчивая Word2Vec, простым PCA и различными другими вероятностными методами, охватывающими большое количество алгоритмов, основанных на очень простом базовом сингле в рамках матричной факторизации.

Ну, цель матричной факторизации в том, что мы хотим выразить матрицу как приблизительное произведение двух маленьких матриц, и это то, что мы собираемся сделать, поэтому с точки зрения уменьшения размерности синяя матрица — это их данные, которые являются нашими результирующими исходными данными, где каждая строка является образцом, а каждый столбец является функцией, мы хотим превратить их в представление, умноженное на некоторые прототипы.

屏幕快照 2021-11-06 下午6.48.41.png

Синяя строка данных Data — это выборка, а столбец — характеристика выборки, которая разложена на представление (представление) умноженное на архетипы (архетипы)

Воспринимайте репрезентацию как низкоразмерную репрезентацию, архетипы как базовую форму, способ, которым вы пользуетесь для реконструкции исходных данных,

屏幕快照 2021-11-06 下午7.04.38.png

Одна строка данных представляет один образец, и каждый образец имеет соответствующее представление, которое умножается на всю матрицу прототипа. Представление может умножать представление на прототип, чтобы получить образец и восстановить его в многомерном пространстве.

屏幕快照 2021-11-06 下午7.05.01.png

Разложите выборку на линейную комбинацию прототипов, представление представляет собой низкоразмерное представление, а данные представляются как комбинация этих прототипов, которая является матричной декомпозицией.

Neighbour Graphs

  • Laplacian Eigenmaps
  • Spectral Embedding
  • Hessian Eigenmaps
  • Local Tangent Space Alignment
  • JSE
  • Isomap
  • t-SNE
  • Locally Linear Embedding
  • LargeVis

Для построения графика из данных, а затем встраивания этого графика в низкоразмерное пространство, все детали заключаются в том, как построить график и как разместить график.

Основное внимание уделяется основным интуициям и основным идеям, а не особенностям работы этих алгоритмов.

геометрический угол

屏幕快照 2021-11-06 下午6.36.49.png

На рисунке А площадь круга, вписанного в квадрат со стороной 1, можно выразить какчисло Пи0.52\pi 0.5^2Объем шара, вписанного в куб, равен43число Пи0.53\frac{4}{3} \pi 0.5^3

В многомерном пространстве вписанная сфера с длиной ребра большой размерности 1 равнаkчисло Пи0.5Dk \pi 0.5^DD — многомерное пространство, когда D достаточно велико, объем вписанной многомерной сферы близок к 0.

В многомерном пространстве наше познание в низкоширотном пространстве иногда нарушается.В многомерном пространстве сферические образцы распределены по краю, что приводит к разреженности данных, которые не только разрежены, но и распределены неравномерно.