Сегментация изображений в глубоком обучении
Сегментация изображения — это технология и процесс разделения изображения на несколько определенных областей с уникальными свойствами и предложения объектов, представляющих интерес. Это ключевой шаг от обработки изображения к анализу изображения. Существующие методы сегментации изображений в основном делятся на следующие категории: методы сегментации на основе порогов, методы сегментации на основе областей, методы сегментации на основе краев и методы сегментации, основанные на определенных теориях. С математической точки зрения сегментация изображения — это процесс разделения цифрового изображения на взаимно непересекающиеся области. Процесс сегментации изображения также является процессом маркировки, то есть присвоения одного и того же номера пикселям, принадлежащим к одной и той же области. Алгоритмы сегментации изображений, основанные на глубоком обучении, в основном делятся на две категории:
1. Семантическая сегментация
Назначьте класс каждому пикселю изображения, например, назначьте всем объектам изображения соответствующие классы.
2. Сегментация экземпляров
В отличие от семантической сегментации, сегментация экземпляров присваивает категории только определенным объектам, что несколько похоже на обнаружение объектов, но при обнаружении объектов выводятся ограничивающие рамки и категории, а при сегментации экземпляров выводятся маски и категории.
Область применения
1. Медицинская визуализация.
включают:
(1) Локализация опухолей и других патологий
(2) Измерение объема ткани
(3) Компьютерная хирургия
(4) Диагностика
(5) Индивидуальный план лечения
(6) Изучение анатомической структуры
2. Найдите объекты на спутниковых снимках
(1) Обнаружение изменений в здании
(2) Расчет площади посевов, лесов, земель и т. д.
(3) Выемка дорог
(4) Строительный отдел
3. беспилотное поле
4. Обнаружение и распознавание лиц, обнаружение отпечатков пальцев, распознавание радужной оболочки глаза и т. д.
Модели сегментации изображений в глубоком обучении
FCN
Ю-нет:
SegNet
RefineNet
PSPNet
DeepLabv1
DeepLabv2
DeepLabv3
DeepLabv3+
Mask-R-CNN
Transformer
Общие наборы данных для глубокого обучения
Pascal VOC
Адресная ссылка:host.robots.ox.ac.uk/pascal/VOC/
Набор данных VOC разделен на 20 категорий, включая 21 фоновую категорию, а именно:
• Человек: человек
• Животное: птица, кошка, корова, собака, лошадь, овца
• Транспортное средство: самолет, велосипед, лодка, автобус, автомобиль, мотоцикл, поезд.
• В помещении: бутылка, стул, обеденный стол, растение в горшке, диван, телевизор/монитор.
Ниже приведены примеры изображений, использованных в соревновании по сегментации в наборе данных VOC, включая исходное изображение и два изображения (в формате PNG) для сегментации классификации изображений и сегментации объектов изображения. Классификация и сегментация изображения заключается в том, что среди 20 объектов контурная заливка каждого объекта на земно-туристическом изображении имеет определенный цвет, всего 20 цветов.
MS COCO
Адресная ссылка:cocodataset.org/#home
MS COCO — это крупнейший набор данных для сегментации изображений, содержащий 80 категорий и более 330 000 изображений, из которых 200 000 помечены, а количество людей во всем наборе данных превышает 1,5 миллиона. MS COCO в настоящее время является самым сложным набором данных для сегментации изображений.
Cityscapes
Адресная ссылка:www.cityscapes-dataset.com/
Cityscapes – это набор данных сегментации изображений для тестирования эффектов и производительности в области вождения. Он содержит 5 000 изображений с мелкими аннотациями и 20 000 изображений с грубыми аннотациями, которые содержат разные сцены, разные фоны, разные уличные сцены в 50 городах и 30 классов, покрывающих аннотации объектов. для земли, зданий, дорожных знаков, природы, неба, людей и транспортных средств и т. д. В оценочном наборе Cityscapes есть две задачи: сегментация сцены изображения на уровне пикселей (далее именуемая семантической сегментацией) и сегментация сцены изображения на уровне экземпляра (Instance-level) (далее именуемая сегментацией экземпляра).
ADE20K
Официальный сайт:группы. Участвовал. Персик. Квота/видение/данные…
Размер всего набора данных (включая все изображения и сегментации) составляет 3,8 ГБ, из них 20 210 изображений в обучающем наборе и 200 в проверочном наборе.Сцены относительно богаты, включая: внутренние, наружные, естественные сцены и т. д. Есть также много категорий для одной сцены, всего 150 категорий.
Общие функции потерь
- Binary Cross Entropy
- Weighted Cross Entropy
- Balanced Cross Entropy
- Dice Loss
- Focal loss
- Tversky loss
- Focal Tversky loss
- log-cosh dice loss
Порекомендуйте полезную библиотеку сегментации изображений
segmentation_models_pytorch — нейронная сеть сегментации изображений на основе PyTorch.
Эта новая коллекция была создана Павлом Якубовским, российским программистом.
адрес гитхаба:GitHub.com/Выдающиеся VE/Цветные лучи…
Инструкции:
blog.csdn.net/hhhhhhhhhhw…