[Сегментация изображения] Переход к сегментации изображения на основе глубокого обучения

искусственный интеллект

Сегментация изображений в глубоком обучении

Сегментация изображения — это технология и процесс разделения изображения на несколько определенных областей с уникальными свойствами и предложения объектов, представляющих интерес. Это ключевой шаг от обработки изображения к анализу изображения. Существующие методы сегментации изображений в основном делятся на следующие категории: методы сегментации на основе порогов, методы сегментации на основе областей, методы сегментации на основе краев и методы сегментации, основанные на определенных теориях. С математической точки зрения сегментация изображения — это процесс разделения цифрового изображения на взаимно непересекающиеся области. Процесс сегментации изображения также является процессом маркировки, то есть присвоения одного и того же номера пикселям, принадлежащим к одной и той же области. Алгоритмы сегментации изображений, основанные на глубоком обучении, в основном делятся на две категории:
1. Семантическая сегментация
Назначьте класс каждому пикселю изображения, например, назначьте всем объектам изображения соответствующие классы.
在这里插入图片描述

2. Сегментация экземпляров
В отличие от семантической сегментации, сегментация экземпляров присваивает категории только определенным объектам, что несколько похоже на обнаружение объектов, но при обнаружении объектов выводятся ограничивающие рамки и категории, а при сегментации экземпляров выводятся маски и категории.
在这里插入图片描述

Область применения

1. Медицинская визуализация.
включают:
(1) Локализация опухолей и других патологий
(2) Измерение объема ткани
(3) Компьютерная хирургия
(4) Диагностика
(5) Индивидуальный план лечения
(6) Изучение анатомической структуры
2. Найдите объекты на спутниковых снимках
(1) Обнаружение изменений в здании
(2) Расчет площади посевов, лесов, земель и т. д.
(3) Выемка дорог
(4) Строительный отдел
3. беспилотное поле
4. Обнаружение и распознавание лиц, обнаружение отпечатков пальцев, распознавание радужной оболочки глаза и т. д.

Модели сегментации изображений в глубоком обучении

FCN
Ю-нет:
SegNet
RefineNet
PSPNet
DeepLabv1
DeepLabv2
DeepLabv3
DeepLabv3+
Mask-R-CNN
Transformer

Общие наборы данных для глубокого обучения

Pascal VOC
Адресная ссылка:host.robots.ox.ac.uk/pascal/VOC/
Набор данных VOC разделен на 20 категорий, включая 21 фоновую категорию, а именно:
• Человек: человек
• Животное: птица, кошка, корова, собака, лошадь, овца
• Транспортное средство: самолет, велосипед, лодка, автобус, автомобиль, мотоцикл, поезд.
• В помещении: бутылка, стул, обеденный стол, растение в горшке, диван, телевизор/монитор.
Ниже приведены примеры изображений, использованных в соревновании по сегментации в наборе данных VOC, включая исходное изображение и два изображения (в формате PNG) для сегментации классификации изображений и сегментации объектов изображения. Классификация и сегментация изображения заключается в том, что среди 20 объектов контурная заливка каждого объекта на земно-туристическом изображении имеет определенный цвет, всего 20 цветов.
在这里插入图片描述

MS COCO
Адресная ссылка:cocodataset.org/#home
MS COCO — это крупнейший набор данных для сегментации изображений, содержащий 80 категорий и более 330 000 изображений, из которых 200 000 помечены, а количество людей во всем наборе данных превышает 1,5 миллиона. MS COCO в настоящее время является самым сложным набором данных для сегментации изображений.
在这里插入图片描述

Cityscapes
Адресная ссылка:www.cityscapes-dataset.com/
Cityscapes – это набор данных сегментации изображений для тестирования эффектов и производительности в области вождения. Он содержит 5 000 изображений с мелкими аннотациями и 20 000 изображений с грубыми аннотациями, которые содержат разные сцены, разные фоны, разные уличные сцены в 50 городах и 30 классов, покрывающих аннотации объектов. для земли, зданий, дорожных знаков, природы, неба, людей и транспортных средств и т. д. В оценочном наборе Cityscapes есть две задачи: сегментация сцены изображения на уровне пикселей (далее именуемая семантической сегментацией) и сегментация сцены изображения на уровне экземпляра (Instance-level) (далее именуемая сегментацией экземпляра).
在这里插入图片描述
ADE20K

Официальный сайт:группы. Участвовал. Персик. Квота/видение/данные…
Размер всего набора данных (включая все изображения и сегментации) составляет 3,8 ГБ, из них 20 210 изображений в обучающем наборе и 200 в проверочном наборе.Сцены относительно богаты, включая: внутренние, наружные, естественные сцены и т. д. Есть также много категорий для одной сцены, всего 150 категорий.
在这里插入图片描述

Общие функции потерь

  1. Binary Cross Entropy
  2. Weighted Cross Entropy
  3. Balanced Cross Entropy
  4. Dice Loss
  5. Focal loss
  6. Tversky loss
  7. Focal Tversky loss
  8. log-cosh dice loss

Порекомендуйте полезную библиотеку сегментации изображений

segmentation_models_pytorch — нейронная сеть сегментации изображений на основе PyTorch.

Эта новая коллекция была создана Павлом Якубовским, российским программистом.
адрес гитхаба:GitHub.com/Выдающиеся VE/Цветные лучи…

在这里插入图片描述
Инструкции:
blog.csdn.net/hhhhhhhhhhw…