Ядро серии ESPNet лежит в пирамиде свертки отверстий, каждый слой имеет разную скорость расширения и может интегрировать многомасштабные функции без увеличения количества параметров.По сравнению со сверткой с разделением по глубине пирамида свертки с разделением по глубине больше экономичность высокая. Кроме того, метод слияния многомасштабных признаков HFF также заслуживает упоминания.

Источник: Заметки по разработке алгоритмов Xiaofei Public Account.

ESPNet

Документ: ESPNet: эффективная пространственная пирамида расширенных сверток для семантической сегментации

Адрес бумаги:АР Вест V.org/ABS/1803.06…
Код диссертации:GitHub.com/Саченгмо и он/ES…

Introduction

ESPNet — это облегченная сеть для семантической сегментации, ядро которой лежит в модуле ESP, включающем пирамиды точечной свертки и сложной свертки, которые используются для уменьшения вычислительной сложности и передискретизации признаков каждого эффективного рецептивного поля соответственно. Модуль ESP более эффективен, чем другие методы декомпозиции свертки (mobilenet/shufflenet), и ESPNet может достигать 112FPS/21FPS/9FPS на графических процессорах/ноутбуках/терминальных устройствах.

ESP module

Модуль ESP разлагает стандартную свертку на точечную свертку и пространственную пирамиду расширенных сверток, точечная свертка отображает входные данные в низкоразмерное пространство признаков, а расширенная пирамида свертки использует $K$ Группа $n\times n$ Атрусная свертка одновременно выполняет повторную выборку низкоразмерных объектов, скорость расширения каждой атрусной свертки составляет $2^{k-1}$ , $k=\{1, \cdots, K\}$ . Этот метод разложения может значительно уменьшить количество параметров и объем памяти модуля ESP, а также сохранить большое эффективное принимающее поле.

Width divider K

Для входных и выходных размеров $M$ и $N$ , размер ядра свертки $n\times n$ Стандартная свертка , число параметров, которые необходимо изучить, равно $n^2MN$ , эффективное рецептивное поле равно $n^2$ . Гиперпараметры $K$ Используется для настройки вычислительной сложности модуля ESP. Сначала используйте поточечную свертку, чтобы преобразовать входное измерение из $M$ сокращено до $\frac{N}{K}$ (уменьшить), а затем низкоразмерные признаки обрабатываются отдельно с помощью упомянутой выше пирамиды сверток атриуса (разделить и преобразовать), и, наконец, выходы K групп сверток атрууса объединяются (объединяются). Модуль ESP содержит $\frac{MN}{K}+\frac{(nN)^2}{K}$ параметр, эффективное рецептивное поле равно $[(n-1)2^{K-1} + 1]^2$ , есть определенные улучшения в параметрах и рецептивных полях.

Hierarchical feature fusion (HFF) for de-gridding

В документе было обнаружено, что, хотя пирамида свертки с отверстиями создает большее рецептивное поле, прямой конкатетный вывод будет приводить к странным линиям сетки, как показано на рисунке 2. Чтобы решить эту проблему, выходные данные добавляются иерархически перед конкатенацией.По сравнению с добавлением дополнительной свертки для постобработки, HFF может эффективно решать текстуру сетки, не требуя слишком больших вычислений. Кроме того, чтобы обеспечить градиентную передачу сети, в модуль ESP добавлено короткое соединение от входа к выходу.

Relationship with other CNN modules

В документе для сравнения перечислены некоторые основные модули облегченной сети.Видно, что модуль ESP имеет очень хорошие значения с точки зрения количества параметров/памяти/рецепторного поля.

ESPNet

На рис. 4 показана эволюция ESPNet, $l$ размер карты признаков, тот же $l$ Модули имеют карту признаков одинакового размера, а красный и зеленый модули представляют собой модули понижающей и повышающей выборки соответственно. $\alpha_2=2$ , $\alpha_3=8$ .

Experiments

Здесь перечислены только некоторые эксперименты, для других конкретных экспериментов, пожалуйста, обратитесь к статье.

Замените модуль ESP на рисунке 4d для экспериментального сравнения.

Сравнение с другими моделями семантической сегментации.

Conclusion

ESPNet – это легкая сеть для семантической сегментации. При обеспечении легкого веса основной модуль предназначен для сцены семантической сегментации. Сложная пирамида свертки используется для извлечения признаков из нескольких рецептивных полей и уменьшения количества параметров. Используется HFF. Чтобы умело устранять линии сетки, стоит поучиться.

ESPNetV2

Бумага: ESPNetv2: легкая, энергоэффективная и универсальная сверточная нейронная сеть

Адрес бумаги:АР Вест V.org/ABS/1811.11…
Код диссертации:GitHub.com/Саченгмо и он/ES…

Introduction

Облегчение модели включает 3 метода, а именно: сжатие модели, квантование модели и облегченный дизайн. В документе разрабатывается облегченная сеть ESPNetv2, и основные вклады заключаются в следующем:

Общая упрощенная сетевая структура может поддерживать визуальные данные и сериализованные данные, то есть она может поддерживать визуальные задачи и задачи обработки естественного языка.
На базе ESPNet она расширена за счет добавления свертки разделяемых по глубине отверстий, которая имеет лучшую точность и меньшее количество параметров, чем ESPNet.
С экспериментальной точки зрения, ESPNetv2 имеет лучшую точность и меньшее количество параметров для нескольких визуальных задач, включая классификацию изображений, семантическую сегментацию и обнаружение объектов.
Разработан планировщик циклической скорости обучения, который лучше обычного планировщика с фиксированной скоростью обучения.

Depth-wise dilated separable convolution

Предположим, что ввод $X\in \mathbb{R}^{W\times H\times c}$ , ядро свертки $X\in \mathbb{K}^{n\times n\times c \times \hat{c}}$ , выход $Y\in \mathbb{R}^{W\times H\times \hat{c}}$ , величины параметров и эффективные рецептивные поля стандартной свертки, групповой свертки, свертки с разделением по глубине и свертки с разделением по глубине отверстий показаны в таблице 1.

EESP unit

В этой статье улучшен модуль ESP, основанный на свертке с разделяемыми отверстиями по глубине и сгруппированной точечной свертке, а также предлагается модуль EESP (чрезвычайно эффективная пространственная пирамида). Первоначальная структура модуля ESP показана на рисунке 1а.В документе сначала точечная свертка заменяется сгруппированной точечной сверткой, а затем заменяется дорогостоящая в вычислительном отношении атриальная свертка на атузальную свертку с разделением по глубине и, наконец, используется HFF для устранения линий сетки, структура показана на рисунке 1b, что может уменьшить $\frac{Md+n^2d^2K}{\frac{Md}{g}+(n^2+d)dK}$ умножить вычислительную сложность, $K$ - количество слоев пирамиды сложной свертки. С учетом отдельного расчета $K$ Точечная свертка эквивалентна одному групповому числу $K$ Поточечная групповая свертка , а групповая свертка более эффективна в реализации, поэтому она улучшена до окончательной структуры рисунка 1с.

Чтобы более эффективно изучать многомасштабные функции, в документе предлагается версия модуля EESP с пониженной дискретизацией (Strided EESP с быстрым подключением к входному изображению), которая в основном вносит следующие улучшения:

Измените свертку отверстий с разделяемыми по глубине отверстиями на версию с шагом = 2.
Добавьте среднюю операцию объединения в исходный ярлык модуля.
Замените операцию поэлементного сложения операцией объединения, которая увеличивает размерность выходных данных.
Чтобы предотвратить потерю информации вместе с субдискретизацией, добавлен ярлык для соединения входных изображений, этот путь использует несколько операций объединения, чтобы сделать его пространственный размер совместимым с картой объектов, выводимой модулем, а затем использует две свертки для извлечения объектов и настройки. размеры и, наконец, выполнить поэлементное сложение.

Network architecture

Сетевая структура ESPNetv2 показана в таблице 2. За каждой сверткой модуля ESSP следует слой BN и PReLU, PReLU последней сгруппированной свертки модуля добавляется поэлементно. $g=K=4$ , другие аналогичны ESPNet.

Cyclic learning rate scheduler

При обучении классификации изображений в статье разрабатывается циклический планировщик скорости обучения, в каждом цикле $t$ , скорость обучения рассчитывается как:

$\eta_{max}$ и $\eta_{min}$ - максимальная и минимальная скорость обучения, соответственно, $T$ это период цикла.

Визуализация рекуррентного планировщика скорости обучения показана на рисунке 4.

Experiments

Сравнение производительности классификации изображений.

Сравнение производительности семантической сегментации.

Сравнение производительности обнаружения объектов.

Сравнение производительности генерации текста.

Conclusion

ESPNetv2 сочетает в себе метод проектирования свертки разделения по глубине на основе ESPNet и еще больше снижает вес модели.В сочетании с более богатым слиянием функций модель может быть расширена для различных задач и имеет очень хорошую производительность.

CONCLUSION

Ядро серии ESPNet лежит в пирамиде свертки отверстий, каждый слой имеет разную скорость расширения и может интегрировать многомасштабные функции без увеличения количества параметров.По сравнению со сверткой с разделением по глубине пирамида свертки с разделением по глубине больше экономичность высокая. Кроме того, стоит изучить многомасштабный метод слияния признаков HFF.

Если эта статья была вам полезна, ставьте лайк или смотрите~

Для получения дополнительной информации, пожалуйста, обратите внимание на общедоступную учетную запись WeChat [Примечания по разработке алгоритмов Xiaofei].

ESPNet

Introduction

ESP module

Width divider K

Hierarchical feature fusion (HFF) for de-gridding

Relationship with other CNN modules

ESPNet

Experiments

Conclusion

ESPNetV2

Introduction

Depth-wise dilated separable convolution

EESP unit

Network architecture

Cyclic learning rate scheduler

Experiments

Conclusion

CONCLUSION