Прошло 9102 года, каково руководство и последние достижения семантической сегментации?

компьютерное зрение
Семантическая сегментация относится к процессу связывания каждого пикселя изображения с меткой класса, которая может включать человека, автомобиль, цветок, предмет мебели и т. д. В этой статье автор представляет недавние отличные идеи и решения по семантической сегментации, которые можно назвать Руководством по семантической сегментации 2019 года.

Выбрано из среды,Автор: Деррик Мвити, составлено Heart of the Machine, предоставлено: Nurhachu Null, Geek AI.

Мы можем думать о семантической сегментации как о классификации изображений на уровне пикселей. Например, на изображении со многими автомобилями модель сегментации пометит все объекты (автомобили) как транспортные средства. Однако другая модель, называемая сегментацией экземпляров, может маркировать отдельные объекты, которые появляются на изображении, как отдельные экземпляры. Эта сегментация полезна в приложениях, которые используются для подсчета объектов (например, подсчет трафика в торговом центре).

Некоторыми основными приложениями семантической сегментации являются автономное вождение, взаимодействие человека с компьютером, робототехника и инструменты для редактирования/создания фотографий. Например, семантическая сегментация является важным методом в автономном вождении и робототехнике, поскольку для моделей в этих областях важно понимать контекст, в котором они работают.

Далее мы рассмотрим некоторые исследовательские работы по современным методам построения моделей семантической сегментации, а именно:
  1. Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation

  2. Fully Convolutional Networks for Semantic Segmentation

  3. U-Net: Convolutional Networks for Biomedical Image Segmentation

  4. The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation

  5. Multi-Scale Context Aggregation by Dilated Convolutions

  6. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

  7. Rethinking Atrous Convolution for Semantic Image Segmentation

  8. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

  9. FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation

  10. Improving Semantic Segmentation via Video Propagation and Label Relaxation

  11. Gated-SCNN: Gated Shape CNNs for Semantic Segmentation

1. Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation (ICCV, 2015)
В этой статье представлено решение проблем работы со слабо помеченными данными в глубоких сверточных сетях, а также с комбинацией хорошо помеченных и плохо помеченных данных. В этой статье сочетаются глубокие сверточные сети и полносвязные условные случайные поля.
В эталонном тесте сегментации PASCAL VOC эта модель достигает коэффициента Intersection over Union (IOU) выше 70%.

Основные вклады этой статьи заключаются в следующем:

  • Представьте алгоритм EM для обучения на уровне ограничительной рамки или изображения, который можно использовать как в слабо контролируемых, так и в полуконтролируемых условиях.

  • Доказано, что сочетание слабых и сильных аннотаций может повысить производительность. После объединения аннотаций из набора данных MS-COCO и набора данных PASCAL авторы статьи добились 73,9% кросс-юнионной производительности на PASCAL VOC 2012.

  • продемонстрировать, что их метод обеспечивает лучшую производительность за счет объединения небольшого количества аннотаций на уровне пикселей с большим количеством аннотаций ограничивающей рамки (или аннотаций на уровне изображения).

2. Fully Convolutional Networks for Semantic Segmentation (PAMI, 2016)
Модель, предложенная в этой статье, достигает среднего IoU 67,2% в наборе данных PASCAL VOC 2012. Полносвязная сеть принимает изображение любого размера в качестве входных данных и генерирует соответствующее пространственное измерение. В этой модели классификатор в ILSVRC отбрасывается в полностью подключенной сети и дополняется для плотных прогнозов с использованием попиксельных потерь и модуля повышения дискретизации. Обучение сегментации достигается за счет точной настройки, которая выполняется путем обратного распространения по сети.


3. U-Net: Convolutional Networks for Biomedical Image Segmentation (MICCAI, 2015)

При обработке биомедицинских изображений очень важно получить метку класса каждой клетки на изображении. Самая большая проблема в биомедицине заключается в том, что изображения, используемые для обучения, получить непросто, а объем данных не очень велик. U-Net — это хорошо известное решение, которое строит модель на полностью связанных сверточных слоях и модифицирует ее, чтобы она могла работать с небольшим объемом данных обучающего изображения, что приводит к более точной сегментации.

  • Адрес статьи: https://arxiv.org/pdf/1505.04597.pdf

Поскольку доступно небольшое количество обучающих данных, эта модель использует увеличение данных путем применения гибких деформаций к доступным данным. Как показано на рисунке 1 выше, сетевая структура модели состоит из сужающегося пути слева и расширяющегося пути справа.
Путь сжатия состоит из 2 сверток 3X3, за каждой из которых следует функция активации ReLU и операция максимального объединения 2X2 для понижения дискретизации. Этап пути расширения включает в себя повышающую дискретизацию функциональных каналов. За этим следует транспонированная свертка 2X2, которая вдвое уменьшает количество функциональных каналов при увеличении карты признаков. Последний слой представляет собой свертку 1X1, и вектор признаков, образованный этой сверткой, сопоставляется с необходимым количеством категорий.

В этой модели обучение проводится с входными изображениями, картами их сегментации и стохастическим градиентным спуском. Увеличение данных используется для обучения сети необходимой устойчивости и инвариантности при использовании очень небольшого количества обучающих данных. Эта модель в одном из экспериментов достигла 92 % MIOU.


4. The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation (2017)
Идея DenseNets заключается в том, что каждый уровень соединяется со всеми уровнями с прямой связью, что упрощает обучение сети и делает ее более точной.
Архитектура модели построена на плотных блоках, содержащих пути понижающей и повышающей дискретизации. Путь понижающей дискретизации состоит из 2 переходов вниз (TD), а повышающая дискретизация состоит из 2 переходов вверх (TU). Кружки и стрелки обозначают схемы подключения в сети.
  • Адрес статьи: https://arxiv.org/pdf/1611.09326.pdf

Основные вклады этой статьи:
  • В целях семантической сегментации структура DenseNet расширена до полностью сверточных сетей.

  • Предлагаются пути повышения частоты дискретизации в плотных сетях, которые работают лучше, чем другие пути повышения частоты дискретизации.

  • Продемонстрируйте, что сеть может давать наилучшие результаты на стандартных тестах.

Эта модель обеспечивает глобальную точность 88% в наборе данных CamVid.

5. Multi-Scale Context Aggregation by Dilated Convolutions (ICLR, 2016)

В этой статье предлагается модуль сверточной сети, способный смешивать многомасштабную контекстную информацию без потери разрешения. Затем этот модуль может быть встроен в существующие структуры с произвольным разрешением, которое в основном основано на сложных свертках.

  • Адрес статьи: https://arxiv.org/abs/1511.07122

Этот модуль протестирован на наборе данных Pascal VOC 2012. Оказывается, добавление контекстных модулей к существующим структурам семантической сегментации может повысить точность.

Интерфейсный модуль, обученный в ходе экспериментов, достигает среднего отношения пересечений к объединениям (mIoU) 69,8 % на проверочном наборе VOC-2012 и 71,3 % на тестовом наборе. Точность предсказания этого модуля для разных объектов следующая:

6. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (TPAMI, 2017)

В этой статье авторы вносят следующий вклад в решение задачи семантической сегментации:

  • Используйте свертку с повышением частоты дискретизации для задач плотного прогнозирования

  • Atrous Spatial Pyramid Pooling (ASPP) для сегментированных объектов в разных масштабах

  • Улучшенная локализация границ объекта с помощью DCNN.

  • Адрес статьи: https://arxiv.org/abs/1606.00915

Система DeepLab, предложенная в этой статье, достигает среднего пересечения над объединением (mIoU) 79,7% при семантической сегментации изображений PASCAL VOC-2012.

В этой статье рассматриваются основные проблемы семантической сегментации, в том числе:

  • Уменьшенное разрешение объекта из-за повторного максимального объединения и понижения дискретизации

  • Обнаружение многомасштабных объектов

  • Поскольку объектно-ориентированный классификатор должен быть инвариантным к пространственным преобразованиям, он снижает точность локализации, вызванную инвариантностью DCNN.

Сложная свертка служит двум целям: либо повышающая дискретизация фильтра путем вставки нулей, либо разреженная выборка входной карты объектов. Второй метод влечет за собой субдискретизацию входной карты объектов с коэффициентом, равным жесткой скорости свертки r, а затем деинтерлейсинг ее в карту с низким разрешением r ^ 2, каждый r. Возможна миграция в области × r. После этого стандартная свертка применяется к промежуточной карте объектов и чередуется с исходным разрешением изображения.

7. Rethinking Atrous Convolution for Semantic Image Segmentation (2017)
В этом документе рассматриваются две проблемы (упомянутые ранее) семантической сегментации с использованием DCNN: снижение разрешения признаков при использовании последовательных операций объединения и наличие многомасштабных объектов.
  • Адрес статьи: https://arxiv.org/pdf/1706.05587.pdf

Для решения второй проблемы в этой статье предлагается жесткая свертка, также известная как расширенная свертка. Мы можем использовать сложные извилины для расширения рецептивного поля и, таким образом, иметь возможность включать многомасштабный контекст, что решает вторую проблему.

Без Dense Conditional Random Fields (DenseCRF) версия документа DeepLabv3 достигает 85,7% производительности на тестовом наборе PASCAL VOC 2012.

8. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (ECCV, 2018)

Метод статьи «DeepLabv3+» обеспечивает производительность 89,0% и 82,1% для набора данных PASCAL VOC 2012 и набора данных Cityscapes соответственно без какой-либо постобработки. Эта модель добавляет в DeepLabv3 простой модуль декодирования, который улучшает результаты сегментации.

  • Адрес статьи: https://arxiv.org/pdf/1802.02611v3.pdf

В этой статье реализовано использование двух нейронных сетей с объединением пространственных пирамид для семантической сегментации. Один собирает контекстную информацию, объединяя функции с разными разрешениями, а другой хочет получить явные границы объектов.

9. FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic egmentation (2019)

В этой статье предлагается совместный модуль повышающей дискретизации под названием Joint Pyramid Upsampling (JPU) для замены жесткой свертки, требующей больших затрат времени и памяти. Он достигает отличных результатов, формализуя метод извлечения изображений с высоким разрешением и формулируя его как задачу повышения дискретизации.

  • Адрес статьи: https://arxiv.org/pdf/1903.11816v1.pdf

Этот метод достигает 53,13% MIOU в наборе данных Pascal Context и работает в три раза быстрее.

В этом методе в качестве основной архитектуры используется полностью сверточная сеть (FCN) и применяется JPU для повышения дискретизации окончательной карты объектов с низким разрешением для получения карты объектов с высоким разрешением. Использование JPU вместо жесткой свертки не приводит к снижению производительности.

Совместная выборка использует целевое изображение с низким разрешением и направляющее изображение с высоким разрешением. Затем создается целевое изображение с высоким разрешением путем передачи структуры и деталей управляемого изображения.

10. Improving Semantic Segmentation via Video Propagation and Label Relaxation (CVPR, 2019)

В этой статье предлагается основанный на видео подход к дополнению наборов данных путем синтеза новых обучающих выборок для повышения точности сетей семантической сегментации. В этой статье исследуется способность моделей предсказания видео предсказывать будущие кадры, которые, в свою очередь, продолжают предсказывать будущие метки.

  • Адрес статьи: https://arxiv.org/pdf/1812.01593v3.pdf

В этой статье показано, что обучение сети семантической сегментации синтетическими данными может привести к повышению точности прогнозирования. Предлагаемый метод обеспечивает 8,5 % MIOU на Cityscape и 82,9 % MIOU на CamVid.

В статье предлагаются два метода прогнозирования будущих этикеток:
  • Распространение меток (LP): создает новые обучающие выборки путем сопоставления исходных будущих кадров с распространенными метками.

  • Совместное распространение метки изображения (JP): создает новые обучающие выборки путем объединения соответствующих распространяемых изображений и распространяемых меток.

В этой статье есть 3 основных вклада: использование модели видеопрогнозирования для распространения меток к текущим соседям, введение совместного распространения меток изображений (JP) для решения проблемы смещения и ослабление однократного нагрева путем максимизации совместной вероятности классификации на граничной метке. обучение.

11. Gated-SCNN: Gated Shape CNNs for Semantic Segmentation (2019)

Эта статья является последним достижением в области семантической сегментации (2019.07), и автор предлагает двухпотоковую структуру CNN. В этой структуре информация о форме объекта обрабатывается через отдельную ветвь, а поток формы обрабатывает только информацию, связанную с границей. Это обеспечивается Gated Convolutional Convolutional Layer (GCL) модели и локальным контролем.

  • Адрес статьи: https://arxiv.org/pdf/1907.05740.pdf

В тесте Cityscapes эта модель показывает показатель MIOU на 1,5 % выше, чем у DeepLab-v3, и на 4 % выше показатель F-границы, чем у DeepLab-v3. На меньшей цели модель способна добиться улучшения IoU на 7%. В таблице ниже показано сравнение производительности Gated-SCNN с другими моделями.

Вышеизложенное является основным прогрессом семантической сегментации в последнее время.С дальнейшим улучшением моделей и данных скорость семантической сегментации становится все быстрее, а уровень точности становится все выше и выше, и, возможно, ее можно применить к различным сценариям реальной жизни. в будущем.

Оригинальная ссылка:
https://heartbeat.fritz.ai/a-2019-guide-to-semantic-segmentation-ca8242f5a7fc