Резюме
Что такое ортогональное ограничение
- Ограничения используются для поощрения или обеспечения ортогональности матриц параметров во время обучения.
Роль ортогональных ограничений
- Распределение после стабилизации выхода активации.
- Часто используется для решения таких проблем, как исчезновение или взрыв градиентов.
когда.
- Разделение функций.
Бумага в основном решает проблему
- Оптимизируйте сходимость, скорость и стабильность во время обучения, сохраняя при этом производительность модели.
основной метод
- жесткие ограничения
Например, в процессе обучения целевой матрицей являетсяПовторяйте операции, такие как разложение по сингулярным числам, чтобы обеспечить ортогональность.
Обобщенное обратное распространение, '{E} tude de cas: Orthogonality
On orthogonality and learning recurrent networks with long term dependencies
Orthogonal Weight Normalization Solution to Optimization over Multiple Dependent Stiefel Manifolds in Deep Neural Network
- мягкие ограничения
Например, использование регуляризатора со штрафным членом для поощрения ортогональности.
All you need is beyond a good init Exploring better
Can We Gain More from Orthogonality Regularizations in Training Deep CNNs
On orthogonality and learning recurrent networks with long term dependencies
фоновая мотивация
- В RNN есть проблемы с исчезновением градиента и взрывом градиента.Обычно используются ортогональные ограничения, но является ли строгая ортогональность лучшей?
Научно-исследовательские цели
- предложитьСтратегия параметризации для декомпозиции матрицы весов, через параметрОграничьте матричную норму и позвольте ей отклоняться от ортогональности, чтобы исследовать эффект строгой ортогональности.
метод
Взрыв градиента и исчезновение градиента с матрицей параметровМаксимальное усиление связано с минимальным усилением, аМаксимальное усиление является его спектральной нормой.
Физический смысл спектральной нормы таков:: Для любого вектора после преобразования матрицы длина нового вектора меньше или равна длине исходного вектора, умноженной на спектральную норму матрицы.Другими словами, после прохождения любого вектора через матрицу , изменение длины ограничено.
В прошлом их ортогональность обычно ограничивалась в виде мягких ограничений или условий регуляризации.
В этой статье мы пытаемся использовать более параметрический метод, то есть разложение по сингулярным числам.контролировать его ортогональность и усиление.
представляет собой матрицу, состоящую из левых собственных векторов,представляет собой матрицу, составленную из правильных собственных векторов,является матрицей сингулярных значений.
Спектральная норма (максимальный коэффициент усиления) матрицы — это наибольшее сингулярное значение, а минимальный коэффициент усиления — наименьшее сингулярное значение.
В процессе оптимизации по ходуиГеодезический градиент оптимизирован так, чтоиДержите его ортогональным.
это матрица, которую мы хотим сохранить ортогональность,- его матрица Якоби для целевой функции,является частично симметричной матрицей, которая зависит от двух и отображается в ортогональную матрицу преобразованием Кэли,это скорость обучения.
В то же время в статье рассматривается эффект отклонения от многообразия Штифеля (просто говоря, пространства, образованного k ортогональными векторами).
То есть, еслиСтрого ортогональная разложенная диагональная матрицаВсе сингулярные значения в них равны 1, но мы позволяем сингулярным значениям в них отклоняться.
МыПараметрически ограничьте максимальное и минимальное отклонение сингулярных значений.вне фронта, используется для измерения величины смещения.
. Ограничивая сингулярные значения до.
Результаты экспериментов
Используйте края разного размера(m велико, а граница мала) и обнаруживается, что скорость сходимости увеличивается с ростомувеличивается и становится быстрее, но при задачах с длинной последовательностью слишком большойсделает его недействительным.
представление:
Подводя итог, можно сказать, что для разных задач производительность модели разная: при обучении последовательности ортогональное ограничение не должно быть слишком строгим, а для обучающей последовательности, когда последовательность очень длинная, ортогональное ограничение должно быть относительно сильным.
Can We Gain More from Orthogonality Regularizations in Training Deep CNNs
фоновая мотивация
- Ортогональность весов является выгодным свойством для обучения нейронных сетей, и сейчас существует множество способов.
- Исследования ортогональности современных CNN все еще отсутствуют.
- Не существует хорошей схемы оценки ортогональности и ограничения для матриц неквадратного веса.
Научно-исследовательские цели
- Предлагается новая схема ортогональной регуляризации для оценки ее эффективности на различных передовых CNN.
метод
Базовый уровень: существующий мягкий ортогональный регуляризатор (SO)
- член распада веса, «релаксация» степени ортогональности.
Double Soft Orthogonality Regularization(DSO)
для матрицы, когда матрицаизчас,Ранг не более, трудно подобраться, поэтому используйте:
заиможно покрыть.
Mutual Coherence Regularization(MC)
поставить матрицуВзаимная согласованность определяется как:
Как можно видетьизмеряетсянаивысшая корреляция между любыми двумя столбцами , чтобы позволитьортогональный,должно быть как можно меньше, аэтоПервыйэлементы, поэтому используйте обычный термин:
Spectral Restricted Isometry Property Regularization(SRIP)
В предыдущей статье было предложеноRIP condition, то есть для всехразреженный вектор, есть небольшой, такой что:
Приведенная выше формула может ограничиватьБазовое число не большеСтолбцы ортогональны друг другу.
заСлучай,RIP conditionБудут ограничения на всю матрицуОртогональный эффект, мы теперь пишем:
иэто матрицаСпектральная норма также является его наибольшим сингулярным значением.
и поэтому, поэтому задача превращается в минимизацию матрицыСпектральная норма:
эксперимент
Три модели были обучены с помощью регуляризатора и сравнены с исходной версией.Видно, что эффект SRIP очень хороший, а эффект DSO не очевиден.
Как видно из тренировочных кривых, все четыре регуляризатора значительно ускоряют процесс обучения на начальном этапе обучения по сравнению с нерегуляризованным начальным вариантом, и сохраняют более высокие значения точности на протяжении всего (большинства частей) тренировочного процесса. Регуляторы также могут стабилизировать тренировку, уменьшая колебания тренировочной кривой.
Сравнение ImageNet и SVHN с использованием SRIP также работает хорошо.
в заключении
- Механизм регуляризации, предложенный в этой статье, может обеспечить более высокую точность, более стабильную кривую обучения и более плавную сходимость и может быть эффективно применен к различным усовершенствованным CNN.
Orthogonal Weight Normalization: Solution to Optimization over Multiple Dependent Stiefel Manifolds in Deep Neural Networks
фоновая мотивация
- Ограничения ортогонального веса, которые могут уменьшить избыточность при сохранении функций, были тщательно изучены.
- Существующая работа в основном ограничивается преобразованием RNN от одного скрытого слоя к другому.
Научно-исследовательские цели
- В статье предполагается изучить более общие прямоугольные ортогональные матрицы в нейронных сетях, не ограничиваясь RNN или CNN.
метод
переход дизайна
Для матрицы весов мы хотим ограничить,Мы используемуказать, что. мы ожидаемОртогональный, т.е. надежда. Во время обратного распространения информация о градиенте также обновляется втело.
мы будемВыражается в виде линейного преобразования, т.е., при прохожденииправильноНулевая централизация,,является d-мерным вектором всех единиц. Итак, как мы выбираем это?
Во-первых, мы надеемсяблизко к 1, потому что мы не хотим использоватьвыражать косвенно, мы хотим, чтобы они были близки, поэтому мы измеряем это ограничение методом наименьших квадратов:
Решая вышеуказанные задачи одновременно, мы можем иметь:
В приведенной выше формуле,. мы используемпредставлять.представлятьсобственные значения ,представлятьвектор признаков, то есть, является декомпозицией признаков.
обратное распространение
При обратном распространении мы хотим обновить параметры прокси, после математического вывода формула обратного распространения выглядит следующим образом:
В этой статье методы расчета прямого и обратного распространения, выведенные выше, объединены в модули в виде жестких ортогональных ограничений, которые можно адаптировать к различным сценариям.
эксперимент
Group Based Orthogonalization
для матрицы,когдаслучай, будетРазделите на группы по размеру, какиз нескольких групп (каждаяряды), внутри каждой группы выполняется ортогонализация.
Увеличение размера группы помогает улучшить ортогонализацию, но слишком большой размер группы снижает производительность, а добавление изученного масштаба (обозначаемого как «olm-scale-128») может помочь достичь оптимальной производительности.
Объединение пакетной нормализации и Адамовской оптимизации
Отлично работает в сочетании.
заменять
Экспериментальные результаты показывают, что эффект обучения после замены некоторых исходных слоев сети на OLM значительно улучшается.
в заключении
- Экспериментальные результаты показывают, что эффект обучения после замены исходного слоя на OLM значительно улучшается.
- В прямой нейронной сети можно точно изучить ортогональный фильтр.
- Такие обученные ортогональные фильтры могут повысить производительность глубоких нейронных сетей.