Dense Prediction with Attentive Feature Aggregation
Оригинальный документ:у-у-у. yuque.com/pulllingheads/papers…
Статью, на которую я наткнулся в arxiv, можно рассматривать как продолжение предыдущей работы «Иерархическое многомасштабное внимание для семантической сегментации».
Прочитать статью из реферата
Aggregating information from features across different layers is an essential operation for dense prediction models.
В этой статье основное внимание уделяется проблеме интеграции функций с кросс-слоями.
Despite its limited expressiveness, feature concatenation dominates the choice of aggregation operations.
Хотя это сращивание признаков, за большинством из них также следуют сложные сверточные структуры.
In this paper, we introduce Attentive Feature Aggregation (AFA) to fuse different network layers with more expressive non-linear operations. AFA exploits both spatial and channel attention to compute weighted average of the layer activations.
AFA основного модуля.Использует пространственное и канальное внимание для взвешивания и суммирования признаков различных слоев.Таким образом, создается нелинейная операция ансамбля.
Inspired by neural volume rendering, we extend AFA with Scale-Space Rendering (SSR) to perform late fusion of multi-scale predictions.
Очень интересный момент, упомянутый здесь, - это структура, используемая для слияния многомасштабного прогнозирования, Дизайн структуры основан на идее рендеринга нейронного тела (я мало знаю об этом аспекте).
AFA is applicable to a wide range of existing network designs.
Поскольку AFA сам по себе является общим модулем модели, его можно легко перенести в другие модели для достижения межуровневой интеграции функций.
Our experiments show consistent and significant improvements on challenging semantic segmentation benchmarks, including Cityscapes, BDD100K, and Mapillary Vistas, at negligible computational and parameter overhead. In particular, AFA im-proves the performance of the Deep Layer Aggregation (DLA) model by nearly 6% mIoU on Cityscapes. Our experimental analyses show that AFA learns to progressively refine segmentation maps and to improve boundary details, leading to new state-of-the-art results on boundary detection benchmarks on BSDS500 and NYUDv2.
Пробовал задачу сегментации и задачу обнаружения краев.
основное содержание
- We propose Attentive Feature Aggregation (AFA) as a non-linear feature fusion operation to replace the prevailing tensor concatenation or summation strategies.
- Our attention module uses both spatial and channel attention to learn and predict the importance of each input signal during fusion. Aggregation is accomplished by computing a linear combination of the input features at each spatial location, weighted by their relevance.
- Compared to linear fusion operations, our AFA module can take into consideration complex feature interactions and attend to different feature levels depending on their importance.
- AFA introduces negligible computation and parameter overhead and can be easily used to replace fusion operations in existing methods, such as skip connections.
- Unlike linear aggregation, our AFA module leverages extracted spatial and channel information to efficiently select the essential features and to increase the receptive field at the same time.
-
Inspired by neural volume rendering [Volume rendering, Nerf: Representing scenes as neural radiance fields for view synthesis], we propose Scale-Space Rendering (SSR) as a novel attention computation mechanism to fuse multi-scale predictions.
- _Мы рассматриваем эти прогнозы как выборочные данные в масштабируемом пространстве и разрабатываем концепцию внимания от грубого к точному для визуализации окончательных прогнозов._(Эта идея интересна. Думайте о получении окончательных прогнозов как о прогнозе для рендеринга окончательной проблемы прогнозирования)
- Repeated use of attention layers may lead to numerical instability or vanishing gradients. We extend the above-mentioned attention mechanism to fuse the dense predictions from multi-scale inputs more effectively.
- Our solution resembles a volume rendering scheme applied to the scale space. This scheme provides a hierarchical, coarse-to-fine strategy to combine features, leveraging a scale-specific attention mechanism. We will also show that our approach generalizes the hierarchical multi-scale attention method [Hierarchical multi-scale attention for semantic segmentation].
Attentive Feature Aggregation (AFA)
Здесь разработаны две формы интеграции, одна подходит для двухвходовой, а другая подходит для прогрессивной интеграции с несколькими входами.Ядро основано на пространственном внимании и внимании канала.Обратите внимание, что расчеты здесь представляют собой все формы парной интеграции, поэтому после вычисляя внимание, используйте сигмовидную диаграмму для построения относительных весов.
Для формы с двумя входами пространственное внимание вычисляется на основе более мелких признаков, поскольку оно содержит богатую пространственную информацию.Внимание канала вычисляется на основе более глубоких признаков, поскольку оно содержит более сложные элементы канала.Для формы с несколькими входами (рис. , На рисунке показаны только три слоя, на самом деле можно ввести больше слоев ввода), канал и пространственное внимание полностью рассчитываются текущим входом слоя, и если есть расчет первого уровня предыдущего расчета, внимание будет использоваться для текущего слоя. Взвешено с предыдущим выходом. Кроме того, порядок интеграции описан в исходном тексте "функция с более высоким приоритетом пройдет большее количество агрегаций", я понимаю, что это должно быть процесс от глубокого к поверхностному.
Предлагаемый ансамблевый модуль можно использовать во многих архитектурах, таких как DLA, UNet, HRNet и FCN.
Scale-Space Rendering (SSR)
Предлагаемая здесь SSR является более модельной стратегией, похожей на ансамбль.
Он интегрирует многомасштабный вывод путем вычисления относительных весов для прогнозируемых результатов в разных масштабах.Поэтому здесь возникают две проблемы:
- Как ССР учится? В газете об этом не упоминается. Но, согласно приведенному выше рисунку, в обучении используются две шкалы ввода, что указывает на возможность обучения SSR. Поскольку это обучаемая структура, которая прогнозирует параметры, параметр внимания автоматически прогнозируется для каждого ввода. Окончательные взвешенные пропорции для нескольких шкал получаются посредством соответствующих расчетных параметров при этих различных входных данных шкалы.
- В каком масштабе будут интегрироваться прогнозы разных размеров? В газете об этом не упоминается. Однако, согласно выражению, основанному на относительном размере исходного ввода на приведенном выше рисунке, его в конечном итоге следует интегрировать до 1,0-кратного исходного масштаба ввода (должно соответствовать форме проекта в иерархическом многомасштабном внимании).
способы выражения
Чтобы выразить проблему интеграции многомасштабных прогнозов, автор сначала сосредоточится на одном пикселе и предположит, что модель является целевым пикселем вПредоставлены прогнозы на разных масштабах. во-первыхПрогнозы в масштабах могут быть выражены как, Таким образом, представление функции для целевого пикселя в масштабном пространстве может быть определено какДалее, здесь предполагаетсяМасштаб представленияшкала отношенийболее грубый.
Таким образом, целевой пиксель можно представить как свет, движущийся в масштабном пространстве,по шкалеШкала ориентации.
Основываясь на этой идее, мы перепроектируем исходное иерархическое внимание в предлагаемом многофункциональном механизме слияния и моделируем уравнение объемного рендеринга, где объем неявно задается масштабным пространством.
Для этого помимо шкалыхарактеристика, предполагатьМодель также предсказывает скаляр для целевого пикселя. , В контексте объемного рендеринга частицыпересечет шкалуВероятность, учитывая некоторую неотрицательную скалярную функцию, его можно выразить как.
Таким образом, масштаб внимания может бытьВыражается как масштаб достижения частицыИ вероятность остаться здесь (каждый раз, когда она удовлетворяет распределению Бернулли, если вы останетесь или пойдете, если вы пойдете вперед, вы останетесь на этот раз):
Скалярные параметры, представляющие предсказания целевых пикселей для каждого масштаба.
Наконец, согласно уравнению объемного рендеринга, окончательный прогноз, полученный путем слияния многомасштабных прогнозов для целевого пикселя, получается путем взвешенного суммирования параметров внимания различных масштабов, Это также отражает окончательную характеристику, полученную для целевого пикселя. , который вОн получается путем слияния характерных выражений всех шкал под приводом.
Основываясь на анализе контекста, дизайн здесь должен в конечном итоге интегрировать все шкалы в 1.
Предлагаемый SSR можно рассматривать как Hierarchical Multi-Scale Attention (HMA) [Hierarchical multi-scale attention for semantic segmentation, GitHub.com/NVIDIA/Сема…] является обобщенной формой .
установив, и исправлено, можно получить последнюю форму.
Судя по форме здесь, здесь есть два загадочных места:
- Форма неверна. Исходное иерархическое многомасштабное внимание использует сигмовидную форму для интеграции различных шкал. Это не согласуется с сигмовидной.
- По форме здесь в сочетании с каскадной зависимостью пространственного внимания (сигмовидной) видно, что выход находится в, то есть информация других слоев постепенно интегрируется в виде убывающего номера слоя, это примерно похоже на форму ниже.
Вход масштабируется перед подачей в модель.Здесь окончательный размер вывода соответствует 1,0 разисходный размер вводаИтак, предположимИнтегрируйте функции от k до 1 в соответствии с номером масштаба и выведите результат на слой 1..
Поскольку внимание, построенное в этой статье, основано на вероятности не выбрать текущий слой (пройти через текущий слой), оно соответствует форме приведенного выше рисунка, а общая форма имеет вид:
Видно, что вес внимания для первого слоя является выходным результатом прямой сигмоиды, а для выхода k-го слоя он получается путем дополнения и умножения сигмовидных выходов каждого слоя.
выбор
В эксперименте используется функция абсолютного значения:, Это вдохновлено анализом, который лучше сохраняет поток градиента через механизм внимания, поскольку авторы обнаружили, что существующие механизмы внимания могут страдать от проблемы исчезающих градиентов.
Форма предварительно отсортированного коэффициента внимания:
рассмотреть первыйКоэффициент слояОб обучаемых параметрахПроизводное от :
При рассмотрении двух масштабов, а именноВремя:
В левом верхнем углу вычисляется производная коэффициента внимания слоя 1 по параметрам слоя 1, а в правом верхнем углу — производная слоя 1 по слою 2. Видно, что если, градиент исчезнет независимо отКак много.
Итак, чтобы избежать проблемы исчезновения градиента, необходимоДелайте тщательные настройки, при выборе функции абсолютного значения матрица Якоби здесь не будет находиться випроблема исчезновения.
Но если здесь взять функцию абсолютного значения, а производную +-1, то все равно будет проблема исчезновения градиента?
Рассмотрим ситуацию в МИА, в том виде, в котором она представлена автором, на данный момент:
Ветвь 2 не участвует в вычислении внимания.Градиент исчезает.
И по моей предыдущей форме есть:
Существует также проблема исчезновения.
Ссылка на сайт
- бумага:АР Вест V.org/ABS/2111.00…
- Код:vis.xyz/pub/dla-afa
- Идея этой статьи исходит от NeRF, вы можете посмотреть введение NeRF, а затем посмотреть на дизайн SSR.
- Немного информации о объемном рендеринге:
- Очень богатый и всеобъемлющий учебный материал по китайской компьютерной графике: Учебник по программированию на GPU и языке Cg.
- Небольшой обзор, опубликованный на CNKI в 2021 году: Обзор алгоритмов синтеза точек зрения на основе полей нейронного излучения.