Семантическая сегментация относится к процессу связывания каждого пикселя изображения с меткой класса, которая может включать человека, автомобиль, цветок, предмет мебели и т. д. В этой статье автор представляет недавние отличные идеи и решения по семантической сегментации, которые можно назвать Руководством по семантической сегментации 2019 года.
Выбрано из среды,Автор: Деррик Мвити, составлено Heart of the Machine, предоставлено: Nurhachu Null, Geek AI.
Мы можем думать о семантической сегментации как о классификации изображений на уровне пикселей. Например, на изображении со многими автомобилями модель сегментации пометит все объекты (автомобили) как транспортные средства. Однако другая модель, называемая сегментацией экземпляров, может маркировать отдельные объекты, которые появляются на изображении, как отдельные экземпляры. Эта сегментация полезна в приложениях, которые используются для подсчета объектов (например, подсчет трафика в торговом центре).
Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation
Fully Convolutional Networks for Semantic Segmentation
U-Net: Convolutional Networks for Biomedical Image Segmentation
The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation
Multi-Scale Context Aggregation by Dilated Convolutions
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
Rethinking Atrous Convolution for Semantic Image Segmentation
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation
Improving Semantic Segmentation via Video Propagation and Label Relaxation
Gated-SCNN: Gated Shape CNNs for Semantic Segmentation
Адрес бумаги:АР Вест V.org/PDF/1502.02…
Основные вклады этой статьи заключаются в следующем:
Представьте алгоритм EM для обучения на уровне ограничительной рамки или изображения, который можно использовать как в слабо контролируемых, так и в полуконтролируемых условиях.
Доказано, что сочетание слабых и сильных аннотаций может повысить производительность. После объединения аннотаций из набора данных MS-COCO и набора данных PASCAL авторы статьи добились 73,9% кросс-юнионной производительности на PASCAL VOC 2012.
продемонстрировать, что их метод обеспечивает лучшую производительность за счет объединения небольшого количества аннотаций на уровне пикселей с большим количеством аннотаций ограничивающей рамки (или аннотаций на уровне изображения).
Адрес бумаги:АР Вест V.org/PDF/1605.06…
При обработке биомедицинских изображений очень важно получить метку класса каждой клетки на изображении. Самая большая проблема в биомедицине заключается в том, что изображения, используемые для обучения, получить непросто, а объем данных не очень велик. U-Net — это хорошо известное решение, которое строит модель на полностью связанных сверточных слоях и модифицирует ее, чтобы она могла работать с небольшим объемом данных обучающего изображения, что приводит к более точной сегментации.
Адрес статьи: https://arxiv.org/pdf/1505.04597.pdf
В этой модели обучение проводится с входными изображениями, картами их сегментации и стохастическим градиентным спуском. Увеличение данных используется для обучения сети необходимой устойчивости и инвариантности при использовании очень небольшого количества обучающих данных. Эта модель в одном из экспериментов достигла 92 % MIOU.
Адрес статьи: https://arxiv.org/pdf/1611.09326.pdf
В целях семантической сегментации структура DenseNet расширена до полностью сверточных сетей.
Предлагаются пути повышения частоты дискретизации в плотных сетях, которые работают лучше, чем другие пути повышения частоты дискретизации.
Продемонстрируйте, что сеть может давать наилучшие результаты на стандартных тестах.
В этой статье предлагается модуль сверточной сети, способный смешивать многомасштабную контекстную информацию без потери разрешения. Затем этот модуль может быть встроен в существующие структуры с произвольным разрешением, которое в основном основано на сложных свертках.
Адрес статьи: https://arxiv.org/abs/1511.07122
В этой статье авторы вносят следующий вклад в решение задачи семантической сегментации:
Используйте свертку с повышением частоты дискретизации для задач плотного прогнозирования
Atrous Spatial Pyramid Pooling (ASPP) для сегментированных объектов в разных масштабах
Улучшенная локализация границ объекта с помощью DCNN.
Адрес статьи: https://arxiv.org/abs/1606.00915
В этой статье рассматриваются основные проблемы семантической сегментации, в том числе:
Уменьшенное разрешение объекта из-за повторного максимального объединения и понижения дискретизации
Обнаружение многомасштабных объектов
Поскольку объектно-ориентированный классификатор должен быть инвариантным к пространственным преобразованиям, он снижает точность локализации, вызванную инвариантностью DCNN.
Адрес статьи: https://arxiv.org/pdf/1706.05587.pdf
Без Dense Conditional Random Fields (DenseCRF) версия документа DeepLabv3 достигает 85,7% производительности на тестовом наборе PASCAL VOC 2012.
Метод статьи «DeepLabv3+» обеспечивает производительность 89,0% и 82,1% для набора данных PASCAL VOC 2012 и набора данных Cityscapes соответственно без какой-либо постобработки. Эта модель добавляет в DeepLabv3 простой модуль декодирования, который улучшает результаты сегментации.
Адрес статьи: https://arxiv.org/pdf/1802.02611v3.pdf
В этой статье предлагается совместный модуль повышающей дискретизации под названием Joint Pyramid Upsampling (JPU) для замены жесткой свертки, требующей больших затрат времени и памяти. Он достигает отличных результатов, формализуя метод извлечения изображений с высоким разрешением и формулируя его как задачу повышения дискретизации.
Адрес статьи: https://arxiv.org/pdf/1903.11816v1.pdf
В этом методе в качестве основной архитектуры используется полностью сверточная сеть (FCN) и применяется JPU для повышения дискретизации окончательной карты объектов с низким разрешением для получения карты объектов с высоким разрешением. Использование JPU вместо жесткой свертки не приводит к снижению производительности.
Совместная выборка использует целевое изображение с низким разрешением и направляющее изображение с высоким разрешением. Затем создается целевое изображение с высоким разрешением путем передачи структуры и деталей управляемого изображения.
В этой статье предлагается основанный на видео подход к дополнению наборов данных путем синтеза новых обучающих выборок для повышения точности сетей семантической сегментации. В этой статье исследуется способность моделей предсказания видео предсказывать будущие кадры, которые, в свою очередь, продолжают предсказывать будущие метки.
Адрес статьи: https://arxiv.org/pdf/1812.01593v3.pdf
Распространение меток (LP): создает новые обучающие выборки путем сопоставления исходных будущих кадров с распространенными метками.
Совместное распространение метки изображения (JP): создает новые обучающие выборки путем объединения соответствующих распространяемых изображений и распространяемых меток.
Эта статья является последним достижением в области семантической сегментации (2019.07), и автор предлагает двухпотоковую структуру CNN. В этой структуре информация о форме объекта обрабатывается через отдельную ветвь, а поток формы обрабатывает только информацию, связанную с границей. Это обеспечивается Gated Convolutional Convolutional Layer (GCL) модели и локальным контролем.
Адрес статьи: https://arxiv.org/pdf/1907.05740.pdf