ESPNet/ESPNetV2: сверточная пирамида Atrous | Облегченные сети

глубокое обучение

Ядро серии ESPNet лежит в пирамиде свертки отверстий, каждый слой имеет разную скорость расширения и может интегрировать многомасштабные функции без увеличения количества параметров.По сравнению со сверткой с разделением по глубине пирамида свертки с разделением по глубине больше экономичность высокая. Кроме того, метод слияния многомасштабных признаков HFF также заслуживает упоминания.


Источник: Заметки по разработке алгоритмов Xiaofei Public Account.

ESPNet


Документ: ESPNet: эффективная пространственная пирамида расширенных сверток для семантической сегментации

Introduction

  ESPNet — это облегченная сеть для семантической сегментации, ядро ​​которой лежит в модуле ESP, включающем пирамиды точечной свертки и сложной свертки, которые используются для уменьшения вычислительной сложности и передискретизации признаков каждого эффективного рецептивного поля соответственно. Модуль ESP более эффективен, чем другие методы декомпозиции свертки (mobilenet/shufflenet), и ESPNet может достигать 112FPS/21FPS/9FPS на графических процессорах/ноутбуках/терминальных устройствах.

ESP module

  Модуль ESP разлагает стандартную свертку на точечную свертку и пространственную пирамиду расширенных сверток, точечная свертка отображает входные данные в низкоразмерное пространство признаков, а расширенная пирамида свертки используетKKГруппаn×nn\times nАтрусная свертка одновременно выполняет повторную выборку низкоразмерных объектов, скорость расширения каждой атрусной свертки составляет2k12^{k-1},k={1,,K}k=\{1, \cdots, K\}. Этот метод разложения может значительно уменьшить количество параметров и объем памяти модуля ESP, а также сохранить большое эффективное принимающее поле.

  • Width divider K

  Для входных и выходных размеровMMиNN, размер ядра сверткиn×nn\times nСтандартная свертка , число параметров, которые необходимо изучить, равноn2MNn^2MN, эффективное рецептивное поле равноn2n^2. ГиперпараметрыKKИспользуется для настройки вычислительной сложности модуля ESP. Сначала используйте поточечную свертку, чтобы преобразовать входное измерение изMMсокращено доNK\frac{N}{K}(уменьшить), а затем низкоразмерные признаки обрабатываются отдельно с помощью упомянутой выше пирамиды сверток атриуса (разделить и преобразовать), и, наконец, выходы K групп сверток атрууса объединяются (объединяются). Модуль ESP содержитMNK+(nN)2K\frac{MN}{K}+\frac{(nN)^2}{K}параметр, эффективное рецептивное поле равно[(n1)2K1+1]2[(n-1)2^{K-1} + 1]^2, есть определенные улучшения в параметрах и рецептивных полях.

  • Hierarchical feature fusion (HFF) for de-gridding

  В документе было обнаружено, что, хотя пирамида свертки с отверстиями создает большее рецептивное поле, прямой конкатетный вывод будет приводить к странным линиям сетки, как показано на рисунке 2. Чтобы решить эту проблему, выходные данные добавляются иерархически перед конкатенацией.По сравнению с добавлением дополнительной свертки для постобработки, HFF может эффективно решать текстуру сетки, не требуя слишком больших вычислений. Кроме того, чтобы обеспечить градиентную передачу сети, в модуль ESP добавлено короткое соединение от входа к выходу.

Relationship with other CNN modules

  В документе для сравнения перечислены некоторые основные модули облегченной сети.Видно, что модуль ESP имеет очень хорошие значения с точки зрения количества параметров/памяти/рецепторного поля.

ESPNet

  На рис. 4 показана эволюция ESPNet,llразмер карты признаков, тот жеllМодули имеют карту признаков одинакового размера, а красный и зеленый модули представляют собой модули понижающей и повышающей выборки соответственно.альфа2=2\alpha_2=2,альфа3=8\alpha_3=8.

Experiments

  Здесь перечислены только некоторые эксперименты, для других конкретных экспериментов, пожалуйста, обратитесь к статье.

  Замените модуль ESP на рисунке 4d для экспериментального сравнения.

  Сравнение с другими моделями семантической сегментации.

Conclusion

ESPNet – это легкая сеть для семантической сегментации. При обеспечении легкого веса основной модуль предназначен для сцены семантической сегментации. Сложная пирамида свертки используется для извлечения признаков из нескольких рецептивных полей и уменьшения количества параметров. Используется HFF. Чтобы умело устранять линии сетки, стоит поучиться.

ESPNetV2


Бумага: ESPNetv2: легкая, энергоэффективная и универсальная сверточная нейронная сеть

Introduction

  Облегчение модели включает 3 метода, а именно: сжатие модели, квантование модели и облегченный дизайн. В документе разрабатывается облегченная сеть ESPNetv2, и основные вклады заключаются в следующем:

  • Общая упрощенная сетевая структура может поддерживать визуальные данные и сериализованные данные, то есть она может поддерживать визуальные задачи и задачи обработки естественного языка.
  • На базе ESPNet она расширена за счет добавления свертки разделяемых по глубине отверстий, которая имеет лучшую точность и меньшее количество параметров, чем ESPNet.
  • С экспериментальной точки зрения, ESPNetv2 имеет лучшую точность и меньшее количество параметров для нескольких визуальных задач, включая классификацию изображений, семантическую сегментацию и обнаружение объектов.
  • Разработан планировщик циклической скорости обучения, который лучше обычного планировщика с фиксированной скоростью обучения.

Depth-wise dilated separable convolution

  Предположим, что вводXеRW×H×cX\in \mathbb{R}^{W\times H\times c}, ядро ​​сверткиXеKn×n×c×c^X\in \mathbb{K}^{n\times n\times c \times \hat{c}}, выходYеRW×H×c^Y\in \mathbb{R}^{W\times H\times \hat{c}}, величины параметров и эффективные рецептивные поля стандартной свертки, групповой свертки, свертки с разделением по глубине и свертки с разделением по глубине отверстий показаны в таблице 1.

EESP unit

  В этой статье улучшен модуль ESP, основанный на свертке с разделяемыми отверстиями по глубине и сгруппированной точечной свертке, а также предлагается модуль EESP (чрезвычайно эффективная пространственная пирамида). Первоначальная структура модуля ESP показана на рисунке 1а.В документе сначала точечная свертка заменяется сгруппированной точечной сверткой, а затем заменяется дорогостоящая в вычислительном отношении атриальная свертка на атузальную свертку с разделением по глубине и, наконец, используется HFF для устранения линий сетки, структура показана на рисунке 1b, что может уменьшитьMd+n2d2KMdg+(n2+d)dK\frac{Md+n^2d^2K}{\frac{Md}{g}+(n^2+d)dK}умножить вычислительную сложность,KK- количество слоев пирамиды сложной свертки. С учетом отдельного расчетаKKТочечная свертка эквивалентна одному групповому числуKKПоточечная групповая свертка , а групповая свертка более эффективна в реализации, поэтому она улучшена до окончательной структуры рисунка 1с.

  Чтобы более эффективно изучать многомасштабные функции, в документе предлагается версия модуля EESP с пониженной дискретизацией (Strided EESP с быстрым подключением к входному изображению), которая в основном вносит следующие улучшения:

  • Измените свертку отверстий с разделяемыми по глубине отверстиями на версию с шагом = 2.
  • Добавьте среднюю операцию объединения в исходный ярлык модуля.
  • Замените операцию поэлементного сложения операцией объединения, которая увеличивает размерность выходных данных.
  • Чтобы предотвратить потерю информации вместе с субдискретизацией, добавлен ярлык для соединения входных изображений, этот путь использует несколько операций объединения, чтобы сделать его пространственный размер совместимым с картой объектов, выводимой модулем, а затем использует две свертки для извлечения объектов и настройки. размеры и, наконец, выполнить поэлементное сложение.

Network architecture

  Сетевая структура ESPNetv2 показана в таблице 2. За каждой сверткой модуля ESSP следует слой BN и PReLU, PReLU последней сгруппированной свертки модуля добавляется поэлементно.g=K=4g=K=4, другие аналогичны ESPNet.

Cyclic learning rate scheduler

  При обучении классификации изображений в статье разрабатывается циклический планировщик скорости обучения, в каждом циклеtt, скорость обучения рассчитывается как:

нmax\eta_{max}инmin\eta_{min}- максимальная и минимальная скорость обучения, соответственно,TTэто период цикла.

  Визуализация рекуррентного планировщика скорости обучения показана на рисунке 4.

Experiments

  Сравнение производительности классификации изображений.

  Сравнение производительности семантической сегментации.

  Сравнение производительности обнаружения объектов.

  Сравнение производительности генерации текста.

Conclusion

  ESPNetv2 сочетает в себе метод проектирования свертки разделения по глубине на основе ESPNet и еще больше снижает вес модели.В сочетании с более богатым слиянием функций модель может быть расширена для различных задач и имеет очень хорошую производительность.

CONCLUSION


Ядро серии ESPNet лежит в пирамиде свертки отверстий, каждый слой имеет разную скорость расширения и может интегрировать многомасштабные функции без увеличения количества параметров.По сравнению со сверткой с разделением по глубине пирамида свертки с разделением по глубине больше экономичность высокая. Кроме того, стоит изучить многомасштабный метод слияния признаков HFF.



Если эта статья была вам полезна, ставьте лайк или смотрите~

Для получения дополнительной информации, пожалуйста, обратите внимание на общедоступную учетную запись WeChat [Примечания по разработке алгоритмов Xiaofei].