Ортогональные ограничения

искусственный интеллект

Резюме

Что такое ортогональное ограничение

  • Ограничения используются для поощрения или обеспечения ортогональности матриц параметров во время обучения.

Роль ортогональных ограничений

  • Распределение после стабилизации выхода активации.
  • Часто используется для решения таких проблем, как исчезновение или взрыв градиентов.
y=yTy=xTWWTx=xTx=x||y|| = \sqrt{y^Ty} = \sqrt{x^TWW^Tx} = \sqrt{x^Tx} = ||x||

когдаWWT=IWW^T=I.

  • Разделение функций.

Бумага в основном решает проблему

  • Оптимизируйте сходимость, скорость и стабильность во время обучения, сохраняя при этом производительность модели.

основной метод

  • жесткие ограничения

Например, в процессе обучения целевой матрицей являетсяWWПовторяйте операции, такие как разложение по сингулярным числам, чтобы обеспечить ортогональность.

Обобщенное обратное распространение, '{E} tude de cas: Orthogonality
On orthogonality and learning recurrent networks with long term dependencies
Orthogonal Weight Normalization Solution to Optimization over Multiple Dependent Stiefel Manifolds in Deep Neural Network

  • мягкие ограничения

Например, использование регуляризатора со штрафным членом для поощрения ортогональности.

All you need is beyond a good init Exploring better
Can We Gain More from Orthogonality Regularizations in Training Deep CNNs

On orthogonality and learning recurrent networks with long term dependencies

фоновая мотивация

  • В RNN есть проблемы с исчезновением градиента и взрывом градиента.Обычно используются ортогональные ограничения, но является ли строгая ортогональность лучшей?

Научно-исследовательские цели

  • предложитьСтратегия параметризации для декомпозиции матрицы весов, через параметрОграничьте матричную норму и позвольте ей отклоняться от ортогональности, чтобы исследовать эффект строгой ортогональности.

метод

Взрыв градиента и исчезновение градиента с матрицей параметровWWМаксимальное усиление связано с минимальным усилением, аWWМаксимальное усиление является его спектральной нормой.
Физический смысл спектральной нормы таков:: Для любого вектора после преобразования матрицы длина нового вектора меньше или равна длине исходного вектора, умноженной на спектральную норму матрицы.Другими словами, после прохождения любого вектора через матрицу , изменение длины ограничено.

W2=max[Wxx]||W||_2 = max[\frac{||Wx||}{||x||}]

В прошлом их ортогональность обычно ограничивалась в виде мягких ограничений или условий регуляризации.

λiWiTWiI2λ\sum_{i}||W_i^TW_i-I||^2

В этой статье мы пытаемся использовать более параметрический метод, то есть разложение по сингулярным числам.WWконтролировать его ортогональность и усиление.

W=USVTW = USV^T

UUпредставляет собой матрицу, состоящую из левых собственных векторов,VVпредставляет собой матрицу, составленную из правильных собственных векторов,SSявляется матрицей сингулярных значений.
Спектральная норма (максимальный коэффициент усиления) матрицы — это наибольшее сингулярное значение, а минимальный коэффициент усиления — наименьшее сингулярное значение.

В процессе оптимизации по ходуUTU=IU^TU=IиVTV=IV^TV=IГеодезический градиент оптимизирован так, чтоUUиVVДержите его ортогональным.

A=GMTMGTA = GM^T-MG^T
Mnew=M+(I+η2A)1(Iη2A)M_{new}=M+(I+\frac{η}{2}A)^{-1}(I-\frac{η}{2}A)

MMэто матрица, которую мы хотим сохранить ортогональность,GG- его матрица Якоби для целевой функции,AAявляется частично симметричной матрицей, которая зависит от двух и отображается в ортогональную матрицу преобразованием Кэли,ηηэто скорость обучения.

В то же время в статье рассматривается эффект отклонения от многообразия Штифеля (просто говоря, пространства, образованного k ортогональными векторами).
То есть, еслиWWСтрого ортогональная разложенная диагональная матрицаSSВсе сингулярные значения в них равны 1, но мы позволяем сингулярным значениям в них отклоняться.
МыSSПараметрически ограничьте максимальное и минимальное отклонение сингулярных значений.mmвне фронта, используется для измерения величины смещения.

si=2m(о(pi)0.5)+1s_i=2m(σ(p_i)-0,5)+1

siеdiag(S),mе[0,1]s_i ∈ {diag(S)},m∈[0,1]. Ограничивая сингулярные значения до[1m,1+m][1-m,1+m].

Результаты экспериментов

Используйте края разного размераmm(m велико, а граница мала) и обнаруживается, что скорость сходимости увеличивается с ростомmmувеличивается и становится быстрее, но при задачах с длинной последовательностью слишком большойmmсделает его недействительным.

1629880254(1).png

представление:

1629880460(1).png

Подводя итог, можно сказать, что для разных задач производительность модели разная: при обучении последовательности ортогональное ограничение не должно быть слишком строгим, а для обучающей последовательности, когда последовательность очень длинная, ортогональное ограничение должно быть относительно сильным.

Can We Gain More from Orthogonality Regularizations in Training Deep CNNs

фоновая мотивация

  • Ортогональность весов является выгодным свойством для обучения нейронных сетей, и сейчас существует множество способов.
  • Исследования ортогональности современных CNN все еще отсутствуют.
  • Не существует хорошей схемы оценки ортогональности и ограничения для матриц неквадратного веса.

Научно-исследовательские цели

  • Предлагается новая схема ортогональной регуляризации для оценки ее эффективности на различных передовых CNN.

метод

Базовый уровень: существующий мягкий ортогональный регуляризатор (SO)

λWTWIF2λ||W^TW-I||^2_F

λλ- член распада веса, «релаксация» степени ортогональности.

Double Soft Orthogonality Regularization(DSO)

для матрицыWm×nW^{m×n}, когда матрицаWWизm<nm<nчас,WTWW^TWРанг не болееmm, трудно подобратьсяII, поэтому используйте:

λ(WTWIF2+WWTIF2)λ(||W^TW-I||^2_F+||WW^T-I||^2_F)

заm>nm>nиm<nm<nможно покрыть.

Mutual Coherence Regularization(MC)

поставить матрицуWWВзаимная согласованность определяется как:

µW=maxij<wi,wj>wiwjµ_W = max_{i≠j}\frac{||}{|w_i|·|w_j|}

Как можно видетьµWµ_WизмеряетсяWWнаивысшая корреляция между любыми двумя столбцами , чтобы позволитьWWортогональный,µWµ_Wдолжно быть как можно меньше, а<wi,wj><w_i,w_j>этоWTWW^TWПервый(i,j)(i,j)элементы, поэтому используйте обычный термин:

λWTWIλ||W^TW-I||_∞

Spectral Restricted Isometry Property Regularization(SRIP)

В предыдущей статье было предложеноRIP condition, то есть для всехkkразреженный векторzеRnz ∈ R^n, есть небольшойδWе(0,1)δ_W ∈ (0,1), такой что:

(1δW)Wz2z2(1+δW)(1-δ_W)≤\frac{||Wz||^2}{||z||^2}≤(1+δ_W)

Приведенная выше формула может ограничиватьWWБазовое число не большеkkСтолбцы ортогональны друг другу.
заk=nk=nСлучай,RIP conditionБудут ограничения на всю матрицуWWОртогональный эффект, мы теперь пишем:

Wz2z21δW,zеRn|\frac{||Wz||^2}{||z||^2}-1| ≤ δ_W,\forall z ∈ R^n

иα(W)=supzеRn,z0Wzzα(W) = sup_{z∈R^n,z≠0}\frac{||Wz||}{||z||}это матрицаWWСпектральная норма также является его наибольшим сингулярным значением.
и поэтомуα(WTWI)=supzеRn,z0Wzz1α(W^TW-I) = sup_{z∈R^n,z≠0}|\frac{||Wz||}{||z||} - 1|, поэтому задача превращается в минимизацию матрицыWTWIW^TW - IСпектральная норма:

λα(WTWI)λ·α(W^TW-I)

эксперимент

Три модели были обучены с помощью регуляризатора и сравнены с исходной версией.Видно, что эффект SRIP очень хороший, а эффект DSO не очевиден.

image.png

Как видно из тренировочных кривых, все четыре регуляризатора значительно ускоряют процесс обучения на начальном этапе обучения по сравнению с нерегуляризованным начальным вариантом, и сохраняют более высокие значения точности на протяжении всего (большинства частей) тренировочного процесса. Регуляторы также могут стабилизировать тренировку, уменьшая колебания тренировочной кривой.

1629891073(1).png

Сравнение ImageNet и SVHN с использованием SRIP также работает хорошо.

1629891188(1).png

в заключении

  • Механизм регуляризации, предложенный в этой статье, может обеспечить более высокую точность, более стабильную кривую обучения и более плавную сходимость и может быть эффективно применен к различным усовершенствованным CNN.

Orthogonal Weight Normalization: Solution to Optimization over Multiple Dependent Stiefel Manifolds in Deep Neural Networks

фоновая мотивация

  • Ограничения ортогонального веса, которые могут уменьшить избыточность при сохранении функций, были тщательно изучены.
  • Существующая работа в основном ограничивается преобразованием RNN от одного скрытого слоя к другому.

Научно-исследовательские цели

  • В статье предполагается изучить более общие прямоугольные ортогональные матрицы в нейронных сетях, не ограничиваясь RNN или CNN.

метод

переход дизайна

Для матрицы весов мы хотим ограничитьWеRn×dW∈R^{n×d},Мы используемVеRn×dV∈R^{n×d}указать, чтоW=ф(V)W = φ(V). мы ожидаемWWОртогональный, т.е. надеждаф(V)*ф(V)T=Iφ(V)*φ(V)^T=I. Во время обратного распространения информация о градиенте также обновляется вVVтело.

мы будемф(V)ф(В)Выражается в виде линейного преобразования, т.е.ф(V)=PVφ(V) = PV, при прохожденииVC=Vc1dTV_C = V-c1_d^TправильноVVНулевая централизация,c=1dV1dc = \frac{1}{d}V1_d,1d1_dявляется d-мерным вектором всех единиц. Итак, как мы выбираем этоPP?

1629877727.png

Во-первых, мы надеемсяW/V∂Вт/∂Вблизко к 1, потому что мы не хотим использоватьVVвыражать косвенноWW, мы хотим, чтобы они были близки, поэтому мы измеряем это ограничение методом наименьших квадратов:

minptr((WVC)(WVC)T)min_ptr((W-V_C)(W-V_C)^T)
s.t.W=PVCs.t. W=PV_C
WWT=IWW^T = I

Решая вышеуказанные задачи одновременно, мы можем иметь:

W=ф(V)=DΛ1/2DT(VC1dT)W = φ(V) = DΛ^{-1/2}D^T(V-C1_d^T)

В приведенной выше формулеP*=DΛ1/2DTP^*=DΛ^{-1/2}D^T,Λ=diag(α1,...,αn)Λ=diag(α_1,...,α_n). мы используемΣΣпредставлять(VC1dT)(VC1dT)T(V-C1_d^T)(V-C1_d^T)^T.ΛΛпредставлятьΣΣсобственные значения ,DDпредставлятьΣΣвектор признаков, то естьΣ=DΛDTΣ = DΛD^T, является декомпозицией признаков.

обратное распространение

При обратном распространении мы хотим обновить параметры проксиVV, после математического вывода формула обратного распространения выглядит следующим образом:

1629878034(1).png

В этой статье методы расчета прямого и обратного распространения, выведенные выше, объединены в модули в виде жестких ортогональных ограничений, которые можно адаптировать к различным сценариям.

эксперимент

Group Based Orthogonalization
для матрицыWn×dW^{n×d},когдаn>dн>дслучай, будетWWРазделите на группы по размеру, какNGdN_G<dиз нескольких групп (каждаяNGN_Gряды), внутри каждой группы выполняется ортогонализация.

1629879339(1).png

Увеличение размера группы помогает улучшить ортогонализацию, но слишком большой размер группы снижает производительность, а добавление изученного масштаба (обозначаемого как «olm-scale-128») может помочь достичь оптимальной производительности.

Объединение пакетной нормализации и Адамовской оптимизации
Отлично работает в сочетании.

1629879615(1).png

заменять
Экспериментальные результаты показывают, что эффект обучения после замены некоторых исходных слоев сети на OLM значительно улучшается.1629879802(1).png

в заключении

  • Экспериментальные результаты показывают, что эффект обучения после замены исходного слоя на OLM значительно улучшается.
  • В прямой нейронной сети можно точно изучить ортогональный фильтр.
  • Такие обученные ортогональные фильтры могут повысить производительность глубоких нейронных сетей.