Сердце машины Оригинал, автор: Чжу Яньфан, редактор: Цю Лулу.
Определение задачи сегментации изображения таково: по определенным правилам изображение делится на несколько конкретных областей с уникальными свойствами, а технология и процесс выдвигают интересующую цель.
В настоящее время для задачи сегментации изображений разработаны следующие подполя: семантическая сегментация, сегментация экземпляров и паноптическая сегментация — новое поле, появившееся только в этом году.
Если вы хотите прояснить разницу между тремя подполями, вы должны упомянуть разницу между вещами и вещами в сегментации изображения: содержимое изображения можно разделить на категорию вещей и категорию вещей в зависимости от того, существует ли фиксированная форма. Среди них люди, автомобили и т. д. Предметы фиксированной формы относятся к категории вещей (исчисляемые существительные обычно относятся к вещам), предметы без фиксированной формы, такие как небо и трава, относятся к категории вещей (неисчисляемые существительные относятся к категории вещей). вещи).
Семантическая сегментация уделяет больше внимания «различению категорий», в то время как сегментация экземпляров уделяет больше внимания «различению между людьми». На следующем рисунке приведен пример, сверху вниз приведены исходное изображение, результаты семантической сегментации и результаты сегментации экземпляров. Семантическая сегментация будет сосредоточена на отделении толпы на переднем плане от деревьев, неба и травы на заднем плане, но не выделяет отдельных лиц из толпы.Все люди на картинке отмечены красным, поэтому люди на желтый квадрат справа не может быть идентифицирован как один Люди все еще разные люди, и сегментация экземпляра будет сосредоточена на сегментации каждого человека в толпе, а не на сегментации травы, деревьев и неба.
Можно сказать, что панорамная сегментация представляет собой комбинацию семантической сегментации и сегментации экземпляров. Следующее изображение является результатом панорамной сегментации того же исходного изображения. Каждая категория вещей и категория вещей разделены. Видно, что разные люди из категории вещей также сегментированы друг от друга.
Общие общедоступные наборы данных, используемые в настоящее время для паноптической сегментации, включают: MSCOCO, Vistas, ADE20K и Cityscapes.
COCO — это набор данных, опубликованный командой Microsoft, который можно использовать для распознавания изображений, сегментации и подписей. В основном он перехватывается из сложных ежедневных сцен. В основном существует 91 категория. Хотя категорий намного меньше, чем ImageNet, изображений много в каждой категории.
Vistas — это крупнейшая и самая разнообразная в мире база данных изображений Street View, предназначенная для поддержки беспилотных и автономных транспортных технологий по всему миру.
ADE20K — это набор данных, который можно использовать для различных задач, таких как восприятие сцены, сегментация и распознавание нескольких объектов. По сравнению с крупномасштабными наборами данных ImageNet и COCO, в нем больше разнообразных сцен, больше изображений и более подробные аннотации к данным, чем в SUN.
Cityscapes — это набор данных из 50 городских уличных пейзажей, а также набор данных для сегментации изображений в среде без водителя.
Ссылка выглядит следующим образом:
COCO: mscoco.org/
Городские пейзажи:www.cityscapes-dataset.com/
Для задач семантической сегментации и сегментации экземпляров уже есть некоторые известные модели, такие как FCN, Dilated Convolutions, DeepLab, PSPNet и др., которые хорошо известны исследователям для семантической сегментации, SDS, CFM, FCIS, Mask R - CNN и т. д., а также панорамная сегментация, как концепция, появившаяся только в этом году, в настоящее время существует лишь несколько связанных исследований.
В январе этого года, чтобы найти алгоритм, который может одновременно разделять объекты и объекты, Хэ Юмин, научный сотрудник Лаборатории искусственного интеллекта Facebook (FAIR), и его команда предложили новую исследовательскую парадигму: паноптическую сегментацию. PS), который определяет новые критерии оценки.
Предложение концепции панорамной сегментации: как сегментировать вещи и вещи одновременно?
Адрес бумаги:АР Вест V.org/ABS/1801.00…
К основным новшествам статьи Хэ Юймина, открывающей новое поле, относятся следующие два момента:
① Унифицировать семантическую сегментацию и сегментацию экземпляров, чтобы предложить новое поле: панорамная сегментация;
② Определить новые показатели оценки.
Для двух отдельных задач семантической сегментации и сегментации экземпляров существуют специальные метрики оценки.
Авторы считают, что отсутствие единой метрики (оценочной метрики, объединяющей две задачи) является одной из основных причин, по которой исследователи обычно изучают сегментацию вещей и вещей изолированно. Поэтому для оценки качества алгоритма панорамной сегментации определена новая метрика паноптического качества индекса оценки (PQ).Метод расчета PQ:
Учитывая TP (выборка положительная, прогноз положительный), FP (выборка отрицательная, прогноз положительный) и FN (выборка положительная, прогноз отрицательный), PQ определяется как:
где p представляет собой прогнозируемый сегмент, а ɡ представляет собой основную истину.
В этой основополагающей статье автор не предлагает новый алгоритм панорамной сегментации, а только определяет новую проблему.Эффект панорамной сегментации в статье достигается за счет сочетания семантической сегментации (PSPNet) с сегментацией экземпляров (Mask R-CNN). . ) получаются путем объединения результатов. Авторы просто определяют метод, основанный на правилах, для объединения двух прогнозов. Наконец, в статье также даются два возможных направления исследований, которые могут служить ориентиром для последующих исследователей: одно — изучение модели сквозной панорамной сегментации, другое — изучение того, как лучше сочетать модели семантической сегментации и сегментации экземпляров.
JSIS-Net: сквозная попытка
В сентябре этого года команда из Технологического университета Эйндховена использовала экстрактор общих признаков, чтобы предложить метод совместной семантической и экземплярной сегментации для получения панорамной сегментации (совместная сеть семантической и экземплярной сегментации, JSIS-Net).
Адрес бумаги:АР Вест V.org/ABS/1809.02…
Структура сети следующая:
Алгоритм аналогичен подходу команды Хэ Юминга, обе из которых сочетают модели семантической сегментации и сегментации экземпляров для получения результатов панорамной сегментации, за исключением того, что две модели используют общий экстрактор признаков для извлечения признаков и выполнения совместного обучения. В базовой структуре сети используется ResNet-50, а извлеченные функции одновременно вводятся в ветви семантической сегментации и сегментации экземпляров.В ветви семантической сегментации модуль объединения пирамид в PSPNet сначала используется для создания карты функций, а затем гибридный метод повышения дискретизации используется для создания карты признаков Прогнозируемый результат корректируется в соответствии с размером входного изображения Маска R-CNN используется в ветви сегментации экземпляра, и, наконец, результаты, полученные этими двумя моделями, объединяются в получить результат панорамной сегментации.
В процессе объединения результатов семантической сегментации и экземплярной сегментации необходимо решить две задачи:
Один из них: поскольку задача панорамной сегментации требует, чтобы все результаты сегментации не могли перекрываться, то, как справиться с перекрытием, генерируемым результатами сегментации экземпляра, является первой проблемой, которую необходимо решить, то есть для пикселя класса вещей, который находится в перекрывающемся часть двух объектов, может быть две метки идентификатора экземпляра из модели сегментации экземпляра, так кому же должен быть назначен этот пиксель в это время?
Второй: в процессе объединения результатов семантической сегментации и сегментации экземпляров, поскольку сегментация вещей имеет только прогнозы от семантической сегментации, а предсказания вещей, как семантическая сегментация, так и сегментация экземпляров могут генерировать прогнозы, поэтому для вещи Для пикселей категории может быть две метки из семантической сегментации и модели сегментации экземпляра, так как же решить конфликт между предсказаниями двух моделей в этом случае?
Что касается первого вопроса, подход группы Хэ Юймин заключается в использовании алгоритма, не похожего на максимальное подавление (подобного NMS), для удаления перекрывающихся результатов сегментации; в то время как подход группы Эйндховенского технологического университета заключается в вычислении пикселей перекрывающейся части вероятность принадлежности к каждому экземпляру и присвоить ее тому экземпляру с наибольшей вероятностью.
Что касается второго вопроса, то в случае конфликта предсказаний метод группы Хэ Юмина состоит в том, чтобы присвоить эту метку метке вещей и соответствующему идентификатору экземпляра, в то время как метод группы Эйндховенского технологического университета заключается в том, чтобы сначала использовать семантическую сегментацию. Классы вещей удаляются, и они заменяются наиболее вероятными классами вещей, предсказанными результатами семантической сегментации, так что результаты семантической сегментации являются только классами вещей, а затем результаты классов вещей сегментации экземпляров используются для замены вещи, которые относятся к результатам семантической сегментации класса пикселей.
Основной вклад JSIS-Net заключается в применении идеи сквозного обучения для совместного выполнения семантической сегментации и прогнозирования сегментации экземпляров для окончательного прогнозирования выходных данных паноптической сегментации. В заключительном заключении автор показывает, что хотя эта сеть может работать, эффект хуже, чем у базового метода, предложенного командой Хэ Юмина.
Как изучить модель паноптической сегментации без достаточных данных аннотации паноптической сегментации
В ноябре этого года команда Оксфордского университета предложила модель паноптической сегментации со слабым контролем:
Адрес бумаги:АР Вест V.org/ABS/1808.03…
кодовый адрес:GitHub.com/it mainstay/мы А…
Это первая модель, в которой используется слабый контроль для обучения эффекту сегментации панорамы. В статье не предлагается новая модель для сегментации панорамы. Используемая модель — это модель, описанная в статье «Сегментация экземпляров по пикселям с динамически созданной сетью». Сеть структуру следующим образом:
Основные особенности этой статьи заключаются в следующем:
① Для изображений с аннотацией только ограничивающих прямоугольников класс вещей и класс вещей на изображении также можно хорошо различить.
② Для вышеупомянутой проблемы, что сегменты, полученные панорамной сегментацией, не могут перекрываться, эта статья очень хорошо решает эту проблему.Он не предсказывает никакого перекрытия.Решение: для всех пикселей на изображении, в При отсутствии надежных аннотаций , модель сначала использует слабое наблюдение и априорные изображения, чтобы приблизить подмножество пикселей на изображении к истинному, а затем использует оценочные метки для этого подмножества пикселей для обучения сети. Подход к достоверности состоит в том, чтобы назначать метки только тем определенным пикселям и помечать оставшийся набор пикселей как «игнорируемые» области.
TASCNet: Комплексная реализация
В декабре Исследовательский институт Toyota также предложил сквозную модель панорамной сегментации TASCNet:
Адрес бумаги:АР Вест V.org/ABS/1812.01…
В этой статье рассматриваются оба направления исследований, предложенных Хэ Юмином, и не только разрабатывается сквозная панорамная модель сегментации, но также предлагается новый алгоритм, который может лучше сочетать семантическую сегментацию с моделями сегментации экземпляров. Структура сети следующая:
Как и все сети, TASCNet также использует глубокую сеть для извлечения признаков.Он использует ResNet-50 и FPN в качестве основы.Использование FPN может захватывать низкоуровневые признаки из более глубокой магистральной сети, что может идентифицировать больше объектов.
Инновация этой статьи в основном заключается в том, что в ней предлагается новый алгоритм (согласованность вещей и материалов, TASC) для поддержания выравнивания между выходными распределениями двух подзадач семантической сегментации и сегментации экземпляров во время обучения. Автор считает, что хотя две ветви семантической сегментации и сегментации экземпляров используют функции, полученные при обучении одной и той же магистральной сети, из-за тонких различий в аннотации этих двух задач и влияния других факторов эти две ветви будут дрейфовать. друг от друга, и задача панорамной сегментации состоит в том, чтобы сделать глобальную оптимальную, поэтому алгоритм TASC используется для лучшей интеграции двух задач.