Аннотация: В общем целевых алгоритмах обнаружения, сувенирная свертка может эффективно улучшить восприимчивое поле сети, тем самым улучшая производительность алгоритма. В статье в этой интерпретации предлагается вариант атрусной свертки и соответствующий метод поиска атрусной свертки, который полностью исследует потенциал атрусной свертки и дополнительно повышает производительность сетевой модели.
Эта статья опубликована в сообществе HUAWEI CLOUD."Paper Interpretation Series 10: Atrous Convolution Framework Search", автор оригинала: Я хочу помолчать.
предисловие
Atrous convolution — это вариант стандартного оператора сверточной нейронной сети, который может управлять эффективным рецептивным полем и обрабатывать крупномасштабную дисперсию объектов без дополнительных вычислений. Однако в литературе редко обсуждается, как спроектировать и отрегулировать жесткую свертка для получения лучшего восприимчивого поля для различных данных, тем самым улучшая производительность модели. Чтобы в полной мере использовать свой потенциал, в этой статье предлагается новый вариант жесткой свертки, начальная (расширенная) свертка, где свертка имеет независимые отверстия по разным осям, каналам и слоям. В то же время в этой статье предлагается простой и эффективный алгоритм поиска дыр (EDO, эффективный поиск расширения), основанный на статистической оптимизации, который адаптивно ищет удобный для обучения метод конфигурации жесткой свертки. Метод поиска работает без затрат, и этот метод очень быстро применяется к крупномасштабным наборам данных.
метод
Разные задачи предъявляют разные требования к эффективному рецептивному полю (ЭРП) по размеру входного изображения и целевого объекта. Размер входных данных для классификации изображений относительно невелик, размер входных данных для обнаружения цели относительно велик, а диапазон цели также велик. Даже для одной и той же задачи фиксированной сети оптимальное решение ERF определенного слоя свертки не обязательно совпадает с решением помеченной свертки, поэтому для удовлетворения требований разных ERF необходимо обеспечить общую ERF алгоритм для разных задач.
В этой статье предлагается вариант свертки расширения, начальная свертка, которая содержит несколько режимов расширения, как показано ниже:
Начальная свертка обеспечивает плотный диапазон возможных ERF.В этой статье представлен эффективный алгоритм оптимизации расширения (EOD), где каждый уровень суперсети представляет собой стандартную операцию свертки, включающую все возможные ERF.Режим расширения. Для каждого выбора слоя используется предварительно обученный вес, чтобы решить проблему выбора путем минимизации ожидаемой ошибки исходного сверточного слоя и свертки с выбранным режимом расширения. Конкретный процесс показан на следующем рисунке:
На приведенном выше рисунке представлен обзор алгоритма EDO, Взяв в качестве примера resnet50, мы сначала тренируемся на обучающих данных, чтобы получить res50 с ядром свертки с узким местом (2dmax + 1) × (2dmax + 1). В этом примере ядро суперсети имеет размеры 5*5, поэтому dmax=2. Затем для вывода каждого фильтра операции свертки мы хотим вычислить ошибку L1 из ожидаемого вывода и выбрать наименьшую (E=3 в этом примере). Наконец, переставьте фильтр так, чтобы одни и те же расширенные извилины располагались вместе, что и стало нашей начальной сверток.
Результаты экспериментов
Эмпирические результаты показывают, что наш метод обеспечивает стабильный прирост производительности во время обширных базовых тестов. Например, mAP Faster-RCNN на MS-COCO улучшен с 36,4% до 39,2% за счет простой замены стандартной свертки 3x3 в магистрали ResNet-50 на Inception Conv. Кроме того, использование того же альтернативного метода в магистрали ResNet-101 значительно улучшает показатель AP из показателя AP COCO val2017 с 60,2% до 68,5% при оценке позы человека снизу вверх.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~