Обзор семантической сегментации

Предисловие

В этом документе дается краткий обзор важных документов, связанных с семантической сегментацией, представлены их основные методы улучшения и эффекты улучшения, а также предлагаются способы загрузки этих документов.

Эта статья взята из технического руководства по публичному аккаунту CV.Серия технических резюме****

Добро пожаловать в Техническое руководство CV, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Семантическая сегментация относится к процессу связывания каждого пикселя изображения с меткой класса. Эти теги могут включать людей, автомобили, цветы, мебель и т. д.

Мы можем думать о семантической сегментации как о классификации изображений на уровне пикселей. Например, на изображении со многими автомобилями сегментация пометит все объекты как объекты-автомобили. Однако отдельный класс моделей, называемый сегментацией экземпляров, может маркировать отдельные экземпляры, в которых объект появляется на изображении. Эта сегментация полезна в приложениях для подсчета количества объектов, таких как расчет пешеходного движения в торговом центре.

Некоторыми из его основных приложений являются беспилотные автомобили, взаимодействие человека с компьютером, робототехника и инструменты для редактирования фотографий и творчества. Например, семантическая сегментация очень важна в беспилотных автомобилях и робототехнике, поскольку для моделей важно понимать контекст, в котором они работают.

"Two men riding on a bike in front of a building on the road. And there is a car."

В этой статье будут представлены некоторые исследовательские работы о современных методах построения моделей семантической сегментации, а именно:

Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation
Fully Convolutional Networks for Semantic Segmentation
U-Net: Convolutional Networks for Biomedical Image Segmentation
The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation
Multi-Scale Context Aggregation by Dilated Convolutions
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
Rethinking Atrous Convolution for Semantic Image Segmentation
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation
Improving Semantic Segmentation via Video Propagation and Label Relaxation
Gated-SCNN: Gated Shape CNNs for Semantic Segmentation

Способ загрузки вышеуказанной статьи прилагается в конце статьи.

Слабое и полууправляемое обучение глубоких сверточных сетей для семантической сегментации изображений

Бумага: Слабо- и полууправляемое обучение глубокой сверточной сети для семантической сегментации изображений (ICCV, 2015)

Код: https://bitbucket.org/deeplab/deeplab-public

В этой статье представлено решение для обработки слабо помеченных данных и комбинации хорошо помеченных и неправильно помеченных данных в глубоких сверточных нейронных сетях (CNN).

В статье применяется комбинация глубокой CNN и полносвязных условных случайных полей.

В эталонном тесте сегментации PASCAL VOC модель дает средний показатель пересечения над объединением (IOU) выше 70%. Одна из основных проблем, с которыми сталкивается такая модель, заключается в том, что для ее обучения требуются изображения, которые аннотируются на уровне пикселей во время обучения.

Основные вклады этой статьи:

Представляет алгоритм максимизации ожидания, который можно применять к ограничивающей рамке или обучению на уровне изображения в условиях слабого или полуконтролируемого обучения.
Докажите, что сочетание слабых и сильных аннотаций может повысить производительность. После объединения аннотаций из набора данных MS-COCO и набора данных PASCAL авторы этой статьи достигают производительности IOU 73,9% на PASCAL VOC 2012.
продемонстрировать, что их метод обеспечивает более высокую производительность за счет объединения небольшого количества аннотированных изображений на уровне пикселей с большим количеством ограничивающих рамок или аннотированных изображений на уровне изображения.

Полностью сверточные сети для семантической сегментации

Бумага: Полностью сверточные сети для семантической сегментации (PAMI, 2016)

Код:fcn.berkeleyvision.org

Модель, предложенная в этой статье, достигает средней производительности 67,2% IU на PASCAL VOC 2012.

Полносвязная сеть берет изображение любого размера и генерирует выходные данные в соответствующем пространственном измерении. В этой модели классификатор ILSVRC проецируется в полностью подключенную сеть и использует потери на уровне пикселей и повышающую дискретизацию в сети для улучшения плотных прогнозов. Затем обучение сегментации завершается тонкой настройкой. Тонкая настройка выполняется путем обратного распространения по сети.

U-Net: сверточные сети для сегментации биомедицинских изображений

Документ: U-Net: сверточные сети для сегментации биомедицинских изображений (MICCAI, 2015)

Код:старая проблема.inform ATI card.uu-freiburg./people/Ron N…

При обработке биомедицинских изображений очень важно получить метку класса для каждой клетки изображения. Самой большой проблемой в биомедицинских задачах является сложность получения тысяч изображений для обучения.

Этот документ основан на полностью сверточных слоях и модифицирует их для обработки некоторых обучающих изображений и получения более точной сегментации.

Поскольку доступных данных для обучения очень мало, модель использует увеличение данных, применяя упругую деформацию к доступным данным. Как показано на рис. 1 выше, сетевая архитектура состоит из сужающегося пути слева и расширяющегося пути справа.

Путь сжатия состоит из двух сверток 3x3. За каждой сверткой следует выпрямленный линейный блок и операция максимального объединения 2x2 для понижения частоты дискретизации. Каждый этап понижения дискретизации удваивает количество функциональных каналов. Шаг расширенного пути включает повышение дискретизации функциональных каналов. Затем следует апконволюция 2x2, вдвое уменьшающая количество функциональных каналов. Последний слой представляет собой свертку 1x1 для сопоставления векторов признаков компонентов с желаемым количеством классов.

В этой модели обучение выполняется с использованием входных изображений, их карт сегментации и реализации стохастического градиентного спуска Caffe. Увеличение данных используется для обучения сети желаемой надежности и инвариантности, когда используется мало обучающих данных. В одном из экспериментов модель достигла среднего балла IOU 92%.

Стослойный Tiramisu: полностью сверточные сети DenseNet для семантической сегментации

Документ: Сто слоев тирамису: полностью сверточные сети DenseNet для семантической сегментации (2017)

Код:GitHub.com/Сим Джег, например/FC-D…

Идея, лежащая в основе DenseNets, состоит в том, чтобы каждый уровень был связан с каждым уровнем с прямой связью, что упрощает обучение сети и делает ее более точной.

Архитектура этой модели построена в плотных блоках нижних путей и пути повышения. Поперечное путь имеет 2 понижению (TD), а путь повышенной поверхности имеет 2 UPConversionsions (TU). Круги и стрелки представляют собой шаблоны подключения внутри сети.

Основные вклады этой статьи:

Расширение архитектуры DenseNet до полностью сверточных сетей для семантической сегментации.
Предлагайте пути повышения частоты дискретизации из плотных сетей, которые работают лучше, чем другие пути повышения частоты дискретизации.
Продемонстрируйте, что сеть может давать результаты SOTA на стандартных тестах.
Модель достигает глобальной точности 88% в наборе данных CamVid.

Многомасштабная агрегация контекста с помощью расширенных сверток

Документ: Многомасштабное агрегирование контекста с помощью расширенных сверток (ICLR, 2016)

Код:GitHub.com/defense/грязный о…

В этой статье разработан сверточный сетевой модуль, который объединяет многомасштабную контекстную информацию без потери разрешения. Затем этот модуль можно подключить к существующей архитектуре с любым разрешением. Этот модуль основан на расширенных извилинах.

Модуль протестирован на наборе данных Pascal VOC 2012. Он демонстрирует, что добавление контекстного модуля к существующей архитектуре семантической сегментации может повысить ее точность.

Интерфейсные модули, обученные в ходе экспериментов, достигают в среднем 69,8% IoU на проверочном наборе VOC-2012 и 71,3% на тестовом наборе. Точность предсказания модели для разных объектов следующая

DeepLab: семантическая сегментация изображений с использованием глубоких сверточных сетей, сложных сверток и полносвязных CRF

Бумага: DeepLab: Семантическая сегментация изображений с помощью глубоких сверточных сетей, Atrous Convolution и полносвязных CRF (TPAMI, 2017)

Код:GitHub.com/tensorflow/…(неофициальный)

В этой статье авторы вносят следующий вклад в решение задачи семантической сегментации глубокого обучения:

Свертка с фильтрами повышения дискретизации для задач плотного прогнозирования
Atrous Spatial Pyramid Pooling (ASPP) для многомасштабных объектов сегментации
Улучшена локализация границ объекта с помощью DCNN.

Система DeepLab, предложенная в статье, достигает 79,7% mIOU в задаче семантической сегментации изображения PASCAL VOC-2012.

В статье рассматриваются основные проблемы использования глубоких CNN в семантической сегментации, в том числе:

Уменьшенное разрешение объекта из-за повторяющихся комбинаций максимального объединения и понижения дискретизации.
Наличие многомасштабных целей.
Поскольку объектно-ориентированные классификаторы требуют инвариантности к пространственным преобразованиям, инвариантность DCNN приводит к снижению точности локализации.

Сложная свертка применяется путем вставки нулей для повышения дискретизации фильтра или разреженной выборки входной карты объектов. Второй метод влечет за собой субдискретизацию входной карты объектов с жесткой скоростью свертки r и ее деинтерлейсинг для создания r^2 карт с уменьшенным разрешением, по одной для каждого возможного сдвига r×r. После этого к прямым картам признаков применяются стандартные свертки, чередуя их с исходным разрешением изображения.

Переосмысление сверток Atrous для семантической сегментации изображений

Документ: Переосмысление Atrous Convolution для семантической сегментации изображений (2017)

Код:GitHub.com/py факел/vis…(неофициальный)

В этом документе рассматриваются две проблемы (упомянутые ранее) семантической сегментации с использованием DCNN: снижение разрешения признаков, возникающее при применении операций непрерывного объединения, и наличие объектов в разных масштабах.

Для решения первой проблемы в статье предлагается использовать астральные извилины, также известные как расширенные извилины. Он предлагает использовать жесткую свертку для расширения поля зрения и, таким образом, включения многомасштабного контекста для решения второй проблемы.

«DeepLabv3» статьи достигает 85,7% производительности на тестовом наборе PASCAL VOC 2012 без постобработки DenseCRF.

Кодер-декодер с Atrous Separable Convolution для семантической сегментации изображения

Бумага: Кодер-декодер с Atrous Separable Convolution для семантической сегментации изображения (ECCV, 2018)

Код:GitHub.com/tensorflow/…

Наш метод «DeepLabv3+» обеспечивает производительность набора тестов 89,0% и 82,1% без какой-либо постобработки наборов данных PASCAL VOC 2012 и Cityscapes. Эта модель является расширением DeepLabv3, которое уточняет результаты сегментации, добавляя простой модуль декодера.

В статье реализованы два типа нейронных сетей, которые используют модули объединения пространственных пирамид для семантической сегментации. Один собирает контекстную информацию, объединяя объекты с разным разрешением, а другой получает четкие границы объектов.

FastFCN: переосмысление расширенных сверток в магистрали семантической сегментации

Документ: FastFCN: переосмысление расширенной свертки в магистрали для семантической сегментации (2019 г.)

Код:GitHub.com/непонимание открыть/fa…

В этой статье предлагается совместный модуль повышающей дискретизации под названием Joint Pyramid Upsampling (JPU) для замены расширенных сверток, занимающих много времени и памяти. Он работает, формулируя функцию извлечения карт высокого разрешения как совместную задачу повышения дискретизации.

Этот метод достигает производительности 53,13% MIOU в наборе данных Pascal Context и работает в 3 раза быстрее.

Метод реализует полносвязную сеть (FCN) в качестве основы, применяя JPU для повышения дискретизации окончательных карт объектов с низким разрешением, что приводит к картам объектов с высоким разрешением. Замена расширенных сверток на JPU не приводит к снижению производительности.

Совместная выборка использует целевое изображение с низким разрешением и направляющее изображение с высоким разрешением. Затем создается целевое изображение с высоким разрешением путем переноса структуры и деталей направляющего изображения.

Улучшенная семантическая сегментация за счет распространения видео и ослабления меток

Документ: FastFCN: переосмысление расширенной свертки в магистрали для семантической сегментации (2019 г.)

Код:GitHub.com/NVIDIA/Сема…

В данной статье предлагается основанный на видео метод расширения обучающей выборки путем синтеза новых обучающих выборок. Это направлено на повышение точности сети семантической сегментации. В нем исследуется способность моделей прогнозирования видео прогнозировать будущие кадры для прогнозирования будущих меток.

В документе показано, что обучение сети сегментации на наборах данных из синтетических данных может повысить точность прогнозирования. Предложенный метод обеспечивает 83,5% MIOU на Cityscapes и 82,9% на CamVid.

В статье предлагаются два метода прогнозирования будущих этикеток:

Распространение меток (LP) создает новые обучающие выборки путем объединения распространяемых меток с исходными будущими кадрами.
Совместное распространение меток изображений (JP) создает новые обучающие выборки путем объединения распространяемых меток с соответствующими распространяемыми изображениями.

В документе есть три основных предложения: использование моделей прогнозирования видео для распространения меток на непосредственно соседние кадры, введение совместного распространения меток изображений для решения проблем несовпадения и смягчение однократных меток за счет максимизации вероятности объединения вероятностей классов вдоль границы поезда.

Gated-SCNN: CNN закрытой формы для семантической сегментации

Документ: Gated-SCNN: CNN закрытой формы для семантической сегментации (2019)

Код:nv-tlabs.github.io/GSCNN/

Эта статья представляет собой современную работу по семантической сегментации. Авторы предлагают двухпотоковую архитектуру CNN. В этой архитектуре информация о форме обрабатывается как отдельная ветвь. Этот поток форм обрабатывает только информацию, относящуюся к границам. Это обеспечивается закрытыми сверточными слоями модели (GCL) и локальным контролем.

Эта модель превосходит DeepLab-v3+ на 1,5 % по показателю mIoU и на 4 % по показателю F-границы. Модель оценивалась с помощью бенчмарка Cityscapes. На меньших и более тонких объектах модель обеспечивает улучшение IoU на 7%.

В таблице ниже показана производительность Gated-SCNN по сравнению с другими моделями.

в заключении

Теперь мы должны освоить некоторые из наиболее распространенных и несколько новых методов выполнения семантической сегментации в различных контекстах.

Все вышеперечисленные документы можно получить, ответив на ключевое слово «0009» в фоне публичного аккаунта CV Technical Guide.

Автор: Деррик Мвити

Составление: Техническое руководство по резюме

Оригинальная ссылка:heartbeat.comet.beautiful/ah-2019-правила…

Добро пожаловать в техническое руководство CV для общедоступной учетной записи, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.