Обзор одноэтапной сегментации экземпляров

глубокое обучение компьютерное зрение

предисловие

В этой статье всесторонне представлен прогресс сегментации экземпляров в одноэтапных методах.В соответствии с тремя категориями сегментации на основе локальной маски, глобальной на основе маски и на основе местоположения анализируется исследовательский статус 19 связанных статей, и их методы введены преимущества и недостатки.

публикаТехническое руководство по оригинальному резюмеСпособ загрузки 19 связанных статей прилагается в конце статьи.

Обратите внимание и сосредоточьтесь на техническом обзоре компьютерного зрения, отслеживания новейших технологий и интерпретации классических статей.

Сегментация экземпляров — это сложная задача компьютерного зрения, требующая прогнозирования экземпляров объектов и их масок сегментации для каждого пикселя. Это делает его гибридом семантической сегментации и обнаружения объектов.

图片

Начиная с Mask R-CNN, методы SOTA для сегментации экземпляров в основномMask RCNNи его разновидности (PANet, оценка по маске RCNNЖдать). Он использует метод сначала обнаружения, а затем сегментации.Сначала он обнаруживает цель, извлекает ограничивающую рамку вокруг каждого целевого экземпляра, а затем выполняет бинарную сегментацию внутри каждой ограничивающей рамки для разделения переднего плана (цели) и фона.

В дополнение к нисходящему подходу обнаружения и сегментации (или сегментации обнаружения за обнаружением) существуют другие методы сегментации экземпляров. Примером является сосредоточение внимания на пикселях путем обработки сегментации экземпляра как проблемы назначения пикселей снизу вверх, как вSpatialEmbedding(ICCV 2019). Но эти методы, как правило, имеют худшую производительность, чем SOTA обнаружения и сегментации, которые мы не будем подробно рассматривать в этом посте.

Однако Mask RCNN очень медленный и непригоден для многих приложений реального времени. Кроме того, маски, предсказанные Mask RCNN, имеют фиксированное разрешение и, следовательно, недостаточно точно настроены для больших объектов сложной формы. Благодаря достижениям в методах обнаружения объектов без привязки, таких как CenterNet и FCOS, была проведена волна исследований одноэтапной сегментации экземпляров. Многие из этих методов быстрее и точнее, чем Mask RCNN, как показано на рисунке ниже.

图片

Время вывода одноэтапного подхода, недавно протестированного на графических процессорах Tesla V100.

В этой статье будут рассмотрены последние достижения в одноэтапной сегментации экземпляров с упором на представление маски — ключевой аспект сегментации экземпляров.

Локальные и глобальные маски

Центральным вопросом, который следует задать при сегментации экземпляров, является представление или параметризация масок экземпляров: 1) использовать ли локальные или глобальные маски и 2) как представлять/параметризовать маски.

图片

Представление маски: локальная маска и глобальная маска

Существует два основных способа представления масок экземпляров: локальные маски и глобальные маски.

Глобальная маска — это то, что нам в конечном итоге нужно, и она имеет ту же пространственную протяженность, что и входное изображение, хотя разрешение может быть меньше, например, 1/4 или 1/8 исходного изображения. У него есть естественное преимущество, заключающееся в том, что у него одинаковое разрешение (и, следовательно, функции фиксированной длины) для больших или малых целей. Это не жертвует разрешением для больших целей, фиксированное разрешение помогает выполнять пакетную обработку для оптимизации.

Локальная маска обычно более компактна, потому что у нее меньше границ, чем у глобальной маски. Его необходимо использовать с позицией маски, которая будет восстановлена ​​до глобальной маски, а размер локальной маски будет зависеть от целевого размера. Но для эффективной пакетной обработки маска экземпляра требует параметризации фиксированной длины. Самое простое решение — настроить маску экземпляра на фиксированное разрешение изображения, используемое Mask RCNN. Как мы видим ниже, существуют более эффективные способы параметризации локальных масок.

В зависимости от того, используются ли локальные маски или глобальные маски, одноэтапная сегментация экземпляра может быть в значительной степени разделена на методы, основанные на локальной маске, и методы, основанные на глобальной маске.

Методы на основе локальных масок

Методы на основе локальных масок напрямую выводят маски экземпляров для каждой локальной области.

Явно закодированные контуры

Ограничивающая рамка — это грубая маска в том смысле, что она аппроксимирует контур маски наименьшим ограничивающим прямоугольником.ExtremeNet(Обнаружение объектов снизу вверх путем группировки экстремальных и центральных точек, CVPR 2019) обнаруживает с использованием четырех экстремальных точек (отсюда ограничивающая рамка с 8 степенями свободы вместо традиционных 4 степеней свободы), и это больше. расширена до восьмиугольной маски путем продления крайних точек в обоих направлениях на соответствующем ей ребре на отрезок, равный 1/4 всей длины ребра.

图片

С тех пор было проведено множество работ по кодированию/параметризации контуров масок экземпляров в коэффициенты фиксированной длины с учетом различных баз декомпозиции. Эти методы регрессируют центр каждого экземпляра (не обязательно центр bbox) и контур относительно этого центра.

ESE-Seg(Явное кодирование формы для сегментации экземпляров в реальном времени, ICCV 2019) спроектируйте сигнатуру формы внутреннего радиуса круга для каждого экземпляра и подгоните ее под полином Чебышева.

PolarMask(PolarMask: сегментация экземпляра одиночного снимка с полярным представлением, CVPR 2020) Описывает силуэты с использованием лучей, отстоящих на постоянных угловых интервалах от центра.

FourierNet(FourierNet: компактное представление маски для сегментации экземпляров с использованием декодеров дифференцируемой формы) представляет декодер формы контура с использованием преобразования Фурье и обеспечивает более гладкие границы, чем PolarMask.

图片

Различные контурные методы

Эти методы обычно используют от 20 до 40 коэффициентов для параметризации контура маски. Они быстро рассуждают и легко оптимизируются. Однако очевидны и их недостатки. Во-первых, визуально все они выглядят — честное слово — довольно плохо. Они не могут точно изображать маски, а также не могут изображать предметы с дыркой в ​​центре.

Эта серия методов интересна, но будущее невелико. Явное кодирование сложной топологии масок экземпляров или их контуров невозможно.

Структурированный 4D-тензор

TensorMask(TensorMask: A Foundation for Dense Object Segmentation, ICCV 2019) — одна из первых работ, в которой демонстрируется идея предсказания плотной маски путем предсказания маски в каждом месте карты признаков. TensorMask по-прежнему предсказывает маски по интересующим областям, а не по глобальным маскам, и может выполнять сегментацию экземпляров без запуска обнаружения объектов.

TensorMask использует структурированные 4D-тензоры для представления масок в пространственной области (2D выполняет итерации по всем возможным позициям во входном изображении, 2D представляет маску в каждой позиции), он также вводит выровненные представления и тензорные бипирамиды (выровненное представление) и тензорную бипирамиду) для восстанавливать пространственные детали, но эти операции выравнивания делают сеть еще медленнее, чем двухэтапная Mask R-CNN. Кроме того, для хорошей производительности его необходимо обучать по расписанию, которое в 6 раз длиннее стандартного конвейера обнаружения объектов COCO (6-кратное расписание).

图片

компактное кодирование по маске

Маски естественных объектов не являются случайными, и, как и естественные изображения, маски экземпляров имеют внутренние размеры, намного меньшие, чем пространство в пикселях.

MEInst(Mask Encoding for Single Shot Instance Segmentation, CVPR 2020) преобразует маски в компактное представление с фиксированными размерами. Выполняя простое линейное преобразование с использованием PCA, MEInst может сжать локальную маску 28x28 в 60-мерный вектор признаков. В документе также предпринята попытка напрямую регрессировать вектор признаков 28x28=784-dim на одноступенчатом детекторе объектов (FCOS), а также получены приемлемые результаты с отставанием от 1 до 2 точек AP.

Это означает, что прямое предсказание многомерных масок (в естественном представлении каждой TensorMask) не совсем невозможно, но его сложно оптимизировать. Компактное представление маски облегчает оптимизацию, а также ускоряет работу во время вывода. Он больше всего похож на Mask RCNN и может использоваться напрямую с большинством других алгоритмов обнаружения объектов.

图片

глобальный подход на основе масок

Методы на основе глобальной маски сначала создают промежуточные и общие карты признаков на основе всего изображения, а затем объединяют извлеченные признаки, чтобы сформировать окончательную маску для каждого экземпляра. Это основной метод среди последних одноэтапных методов сегментации экземпляров.

Прототипы и коэффициенты

YOLACT(YOLACT: Сегментация экземпляров в реальном времени, ICCV 2019) — одна из первых попыток сегментации экземпляров в реальном времени. YOLACT разбивает сегментацию экземпляра на две параллельные задачи, создавая набор масок-прототипов и прогнозируя коэффициенты маски для каждого экземпляра.

Маски-прототипы генерируются с помощью FCN и могут напрямую извлекать выгоду из достижений в области семантической сегментации. Коэффициенты предсказываются как дополнительные характеристики ограничивающей рамки. За этими двумя параллельными шагами следует этап сборки: простая линейная комбинация с помощью матричного умножения и операция обрезки прогнозируемой ограничивающей рамки для каждого экземпляра. Операция обрезки снижает нагрузку на сеть по подавлению шума за пределами ограничивающей рамки, но все же обнаруживает некоторую утечку, если ограничивающая рамка содержит часть другого экземпляра того же класса.

图片

Прогнозирование масок прототипов имеет решающее значение для обеспечения высокого разрешения масок конечных экземпляров, что сравнимо с семантической сегментацией. Маски-прототипы зависят только от входного изображения и не связаны с категориями и конкретными экземплярами. Это распределенное представление компактно, потому что количество масок-прототипов не зависит от количества экземпляров, что делает стоимость вычисления маски YOLACT постоянной (в отличие от Mask RCNN, где стоимость вычисления линейна с количеством экземпляров).

обзорInstanceFCN(Сверточные сети с учетом экземпляра, ECCV 2016) и последующие исследования MSRA.FCIS(Fully Convolutional Instance-aware Semantic Segmentation, CVPR 2017), они кажутся особым случаем YOLACT. И InstanceFCN, и FCIS используют FCN для создания нескольких карт оценок с учетом экземпляров, содержащих относительные положения целевых экземпляров, а затем применяют модуль сборки для вывода целевых экземпляров. Карты оценок, чувствительные к положению, можно рассматривать как маски прототипов, но InstanceFCN и FCIS используют фиксированный набор операций пространственного объединения для объединения масок прототипов, чувствительных к положению, вместо изучения линейных коэффициентов.

图片

InstanceFCN [b] и FCIS [c] используют фиксированные операции объединения для сегментации экземпляров.

BlendMask(BlendMask: Top-Down Meets Bottom-Up для сегментации экземпляров, CVPR 2020) Основываясь на YOLACT, но вместо прогнозирования скалярного коэффициента для каждой маски-прототипа, BlendMask прогнозирует карту внимания с низким разрешением (7x7), которая будет сливаться с ограничивающей рамкой маски. . Эта карта внимания прогнозируется как многомерная функция (7x7 = 49-d), прикрепленная к каждой ограничивающей рамке. Интересно, что протомаска, используемая BlendMask, равна 4, но она работает только с 1 протомаской.

CenterMask(CenterMask: сегментация единичного экземпляра с точечным представлением, CVPR 2020) работает почти идентично и явно использует 1 маску-прототип (называемую глобальной картой значимости).

CenterMask использует CenterNet в качестве магистрали, в то время как BlendMask использует в качестве магистрали аналогичный безанкерный и одноэтапный FCOS.

图片

Архитектура CenterMask. BlendMask имеет очень похожий конвейер.

Обратите внимание, что и BlendMask, и CenterMask дополнительно зависят от обнаруженного ограничивающего прямоугольника. Карта внимания или размер маски должны быть масштабированы до того же размера, что и ограничительная рамка, прежде чем смешиваться с обрезанной маской-прототипом.

CondInst(Условные свертки для сегментации экземпляров) делает еще один шаг вперед и полностью устраняет любую зависимость от ограничивающих рамок. Вместо сборки обрезанных масок-прототипов он заимствует идею динамических фильтров и предсказывает параметры облегченной головы FCN. Заголовок FCN имеет три уровня и всего 169 параметров. Удивительно, но авторы показывают, что сеть достигает 31 AP на COCO, даже если маска прототипа представляет собой одиночный 2-канальный CoordConv. Мы обсудим это в разделе о неявном представлении ниже.

图片

BlendMask/CenterMask и CondInst являются расширениями YOLACT.

  • BlendMask/CenterMask пытается смешать обрезанную маску-прототип с мелкозернистой маской в ​​каждом блоке. YOLACT — это частный случай BlendMask или CenterMask, где карта внимания имеет разрешение 1x1.

  • CondInst пытается смешивать обрезанные маски прототипов с более глубокими свертками, состоящими из фильтров динамического прогнозирования. YOLACT — это частный случай CondInst, где FCN — это конверсионный слой 1 1x1.

Использование ветвей для прогнозирования масок прототипов позволяет этим методам использовать вспомогательные задачи, использующие семантическую сегментацию (обычно с усилением на 1–2 балла в AP). Его также можно естественным образом расширить для выполнения паноптической сегментации.

Ниже перечислены некоторые технические детали относительно параметров, необходимых для представления каждой маски экземпляра. Эти методы с глобальными масками и коэффициентами используют 32, 196, 169 параметров на маску экземпляра.

  • YOLACT использует 32 маски-прототипа + 32 коэффициента затемнения маски + обрезку прямоугольника;

  • BLENDMASK использует 4 маски прототипов + 4 7x7 Карты внимания + коробчатая обрезка;

  • CondInst с использованием coordConv + 3 динамических преобразования 1x1 (169 параметров)

SOLO и SOLOv2: сегментация объектов по местоположению

SOLOявляется единственным в своем роде и заслуживает отдельного раздела. Статьи содержательны и хорошо написаны. Для меня они произведение искусства (как и еще один из моих любимых, CenterNet).

图片

Архитектура SOLOv1

Первый автор статьи ответил на мотивацию SOLO на Zhihu, цитирую следующее:

«Семантическая сегментация предсказывает семантический класс каждого пикселя изображения. Точно так же для сегментации мы предлагаем предсказать «класс экземпляра» каждого пикселя. Теперь ключевой вопрос: как мы определяем класс экземпляра?»

Два экземпляра объекта на входном изображении являются одним и тем же экземпляром, если они имеют одинаковую форму и расположение. Любые два разных экземпляра имеют разные положения или формы. Поскольку формы, как правило, трудно описать, мы аппроксимируем формы размерами.

следовательно,«Класс экземпляра» определяется положением и размером. Места классифицируются по их центральному местоположению.. SOLO аппроксимирует положение центра, разделяя входное изображение на сетку ячеек S x S и классов S². Размер обрабатывается путем назначения объектов разных размеров на разные уровни пирамиды признаков (FPN). Таким образом, для каждого пикселя SOLO нужно только решить, какой ячейке сетки SxS и какому уровню FPN назначить пиксель (и соответствующий класс экземпляра). Таким образом, SOLO нужно выполнить только две задачи классификации на уровне пикселей, аналогичные семантической сегментации.

Теперь другой ключевой вопрос: как представлена ​​маска?

Маски экземпляров напрямую представлены глобальными масками, размещенными в канале S². Это гениальный дизайн, который решает сразу много проблем. Во-первых, многие предыдущие исследования сохраняли 2D-маски в виде сглаженных векторов, которые быстро становились неуправляемыми, когда количество каналов резко увеличивалось по мере увеличения разрешения маски. Глобальная маска естественным образом сохраняет пространственные отношения внутри замаскированных пикселей. Во-вторых, генерация глобальной маски сохраняет высокое разрешение масок. В-третьих, количество масок предсказания фиксировано и не зависит от объектов на изображении. Это похоже на рабочую строку масок-прототипов, мы увидим в SOLOv2, как объединяются два потока.

SOLO формулирует сегментацию экземпляров как проблему, связанную только с классификацией, и устраняет любые проблемы, зависящие от регрессии. Это делает SOLO естественным образом независимым от обнаружения объектов. SOLO и CondInst — это две работы, которые напрямую манипулируют глобальной маской и представляют собой действительно безграничные методы.

图片

Глобальная маска для предсказания SOLO. Маски избыточны, разрежены и устойчивы к ошибкам локализации объекта.

Компромисс разрешения

Из глобальных масок, предсказанных SOLO, мы видим, что маски относительно нечувствительны к ошибкам локализации, потому что маски, предсказанные соседними каналами, очень похожи. Это вводит компромисс между разрешением (и, следовательно, точностью) для локализации объекта и масками экземпляров.

Идея 4D-структурированных тензоров TensorMask верна в теории, но ее трудно реализовать на практике в текущей структуре тензорного формата NHWC. Сведение двумерного тензора с пространственной семантикой в ​​одномерный вектор неизбежно приводит к потере некоторых пространственных деталей (аналогично семантической сегментации с использованием полносвязных сетей), и даже представление изображений с низким разрешением 128x128 имеет свои ограничения. 2D для положения или 2D для маски должны жертвовать разрешением. Большинство предыдущих исследований считают, что позиционное разрешение является более важным, и уменьшают/сжимают размер маски, тем самым ставя под угрозу выразительность и качество маски. TensorMask пытается найти баланс, но громоздкие операции приводят к медленному обучению и логическому выводу. SOLO понимает, что нам не нужна информация о местоположении с высоким разрешением, и заимствует у YOLO, сжимая местоположения в грубую сетку S². Таким образом, SOLO поддерживает высокое разрешение глобальной маски.

Я наивно полагал, что SOLO может работать, предсказывая глобальную маску S² x W x H как дополнительную сглаженную мерную функцию WH, прикрепленную к каждой сетке S² в YOLO. Я ошибался--Формулировка глобальных масок с полным разрешением, а не плоских векторов, на самом деле является ключом к успеху SOLO.

Раздельное СОЛО и динамическое СОЛО

Как упоминалось выше, глобальные маски, предсказанные SOLO в канале S², очень избыточны и разрежены. Даже при грубом разрешении S=20 каналов 400, и на картинке не может быть столько объектов, чтобы каждый канал содержал действительную маску экземпляра.

В Decoupled SOLO исходный тензор M формы H x W x S² заменяется двумя тензорами X и Y формы H x W x S. Для объектов в позиции сетки (i, j) M_ij аппроксимируется поэлементным умножением X_i ⊗ Y_j. Это уменьшает количество каналов с 400 до 40, и эксперименты не показывают снижения производительности.

图片

SOLO vs Decoupled SOLO vs SOLOv2

Теперь естественно спросить, можем ли мы позаимствовать идею маски-прототипа YOLACT, предсказывая меньшее количество масок и комбинируя их, предсказывая коэффициенты каждой ячейки сетки? SOLOv2 делает именно это.

В SOLOv2 есть две ветки: ветка функций и ветка ядра. Ветвь признаков предсказывает маску прототипа E, а ветвь ядра предсказывает ядро ​​размера D в каждой ячейке сетки S². Как мы видели в разделе YOLACT выше, этот подход с динамическим фильтром является наиболее гибким. Когда D = E, это простая линейная комбинация масок прототипа (или 1x1 conv), такая же, как YOLACT. В статье также опробованы ядра 3x3 conv (D=9E). Это можно сделать еще дальше, предсказав веса и смещения облегченного многослойного FCN (например, в CondInst).

图片

Теперь, из-за отделения ветви глобальной маски от ее выделенного местоположения, мы можем наблюдать, что новые маски-прототипы демонстрируют более сложные шаблоны, чем маски в SOLO. Они по-прежнему чувствительны к положению и больше похожи на YOLACT.

Неявное представление масок

Идея динамического фильтра, используемого в CondInst и SOLOv2, поначалу звучит великолепно, но на самом деле она довольно проста, если рассматривать ее как естественное расширение списка коэффициентов, используемых для линейных комбинаций.

Также можно считать, что мы параметризуем маску с помощью коэффициентов или карт внимания, или в итоге параметризуем ее как динамический фильтр для головы небольшой нейронной сети. Идея использования нейронных сетей для динамического кодирования геометрических объектов также недавно исследовалась в 3D-обучении. Традиционно трехмерные фигуры кодируются с использованием вокселей, облаков точек или сеток.Occupancy Networks(Сети занятости: обучение трехмерной реконструкции в функциональном пространстве, CVPR 2019) предлагается кодировать формы как нейронные сети, рассматривая непрерывные границы решений глубоких нейронных сетей как трехмерные поверхности. Сеть берет точку в 3D и определяет, находится ли она на границах закодированной 3D-формы.Этот подход позволяет извлекать 3D-сетки с любым разрешением во время логического вывода.

图片

Неявное представление, предлагаемое в Occupancy Networks

Можем ли мы изучить нейронную сеть, состоящую из динамических фильтров для каждого целевого экземпляра, так что сеть принимает точку в 2D и выводит, принадлежит ли точка к этой целевой маске? Это естественно выводит глобальную маску и может иметь любое желаемое разрешение.

Обзор исследования абляции CondInst показывает, что даже без масок прототипа есть только входные данные CoordConv (для выполнения однородной пространственной выборки). Поскольку эта операция отделена от разрешения маски прототипа, было бы интересно передать CoordConv отдельно с более высоким разрешением, чтобы получить глобальную маску с более высоким разрешением, чтобы посмотреть, улучшит ли это производительность. Я твердо верю, что будущее за неявным кодированием масок экземпляров.

图片

Только ввод CoordConv без маски прототипа, CondInst также предсказывает достойную производительность

Последнее предложение

Большинство одноэтапных работ по сегментации экземпляров основаны на обнаружении объектов без привязки, таких как CenterNet и FCOS. Возможно, неудивительно, что многие из вышеперечисленных статей исходят из той же лаборатории Университета Аделаиды, которая создала FCOS. они были недавноGitHub.com/Ambiguous-UO/AD…Открыт исходный код своей платформы.

Многие современные методы являются быстрыми и обеспечивают производительность в реальном времени или почти в реальном времени (30+ кадров в секунду). NMS часто является узким местом для сегментации экземпляров в реальном времени. Для реальной производительности в реальном времени YOLACT использует Fast NMS, а SOLOv2 использует Matrix NMS.

постскриптум

  • Прогнозирование многомерных векторов признаков, например, масок, сложно. Почти все методы сосредоточены на том, как сжать маски в низкоразмерные представления. Эти методы обычно используют от 20 до 200 параметров для описания маски с разной степенью успеха. Я думаю, что это фундаментальное ограничение на минимальное количество параметров для представления формы маски.

  • Ручные параметрические профили не очень перспективны.

  • Локальная маска существенно зависит от обнаружения объекта. Надеюсь увидеть больше исследований по прямому созданию глобальных масок.

  • Неявное представление масок выразительно, компактно и может генерировать маски любого разрешения. CondInst может генерировать глобальные маски с более высоким разрешением, используя возможности неявных представлений.

  • SOLO прост, а SOLOv2 быстр и точен. Надеюсь увидеть больше исследований по этому маршруту в будущем.

Ответьте на ключевое слово «0011» в фоновом режиме официальной учетной записи CV Technical Guide, чтобы получить 19 связанных документов.

использованная литература

1. SOLO: Segmenting Objects by Locations, Arxiv 12/2019
2. SOLOv2: Dynamic, Faster and Stronger, Arxiv 03/2020
3. YOLACT: Real-time Instance Segmentation, ICCV 2019
4. PolarMask: Single Shot Instance Segmentation with Polar Representation, CVPR 2020 oral
5. ESE-Seg: Explicit Shape Encoding for Real-Time Instance Segmentation, ICCV 2019
6. PointRend: Image Segmentation as Rendering, CVPR 2020 oral
7. TensorMask: A Foundation for Dense Object Segmentation, ICCV 2019
8. BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation, CVPR 2020
9. CenterMask: single shot instance segmentation with point representation, CVPR 2020
10. MEInst: Mask Encoding for Single Shot Instance Segmentation, CVPR 2020)
11. CondInst: Conditional Convolutions for Instance Segmentation, Arxiv 03/2020
12. Occupancy Networks: Learning 3D Reconstruction in Function Space, CVPR 2019
13. FCOS: Fully Convolutional One-Stage Object Detection, ICCV 2019
14. Mask R-CNN, ICCV 2017 Best paper
15. PANet: Path Aggregation Network for Instance Segmentation, CVPR 2018
16. Mask Scoring R-CNN, CVPR 2019
17. InstanceFCN: Instance-sensitive Fully Convolutional Networks, ECCV 2016)
18. FCIS: Fully Convolutional Instance-aware Semantic Segmentation, CVPR 2017
19. FCN: Fully Convolutional Networks for Semantic Segmentation, CVPR 2015
20. CoordConv: An Intriguing Failing of Convolutional Neural Networks and the CoordConv Solution, NeurIPS 2018
21. Associative Embedding: End-to-End Learning for Joint Detection and Grouping, NeuRIPS 2017
22. SpatialEmbedding: Instance Segmentation by Jointly Optimizing Spatial Embeddings and Clustering Bandwidth, ICCV 2019

Автор: Патрик Лангечуан Лю.

Составление: Техническое руководство по резюме

Оригинальная ссылка:к data science.com/single-Sontag…

Эта статья взята из ************************************************* техническое руководство по CV публичной учетной записи **************************************************** ******* *******************************************Серия технических резюме********************************************************************************************************************************

Добро пожаловать в техническое руководство CV для общедоступной учетной записи, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.

Ответьте на ключевое слово «техническое резюме» в официальном аккаунте, чтобы получить краткий PDF-файл исходной технической сводной статьи официального аккаунта.

Другие статьи

Артефакт с открытым исходным кодом OCR PaddleOCR снова обновлен: эффект увеличен на 7%, а скорость увеличена на 220%.

Опыт работы и восприятие алгоритма CV от года

Краткое изложение некоторых новых наборов данных, предложенных CVPR2021

Обзор понимания видео: распознавание действий, расположение последовательности действий, встраивание видео

Обзор многоуровневой классификации

Заметки по началу работы с Few-shot Learning Xiaobai

Обзор оценки позы человека в глубоком обучении

Инкрементальное обучение глубоких нейронных сетей

Обзор оценки позы человека в глубоком обучении

Краткое изложение распространенных методов обнаружения малых целей

Техническое руководство по CV - Резюме и классификация основных статей

Резюме методов нормализации | Краткое изложение методов недообучения и переобучения

Сводка NMS | Краткое изложение методов функции потерь

Техническое резюме механизма внимания | Краткое изложение технологии пирамиды функций

Краткое изложение технологии объединения | Краткое изложение методов увеличения данных

Краткое изложение общих идей бумажных инноваций | Сводка параллельного обучения GPU с несколькими картами

Резюме эволюции структуры CNN (1) Классическая модель

Резюме эволюции структуры CNN (2) Облегченная модель

Резюме эволюции структуры CNN (3) Принципы проектирования

Краткое изложение технологии визуализации CNN (1) Визуализация карты объектов

Краткое описание технологии визуализации CNN (2) Визуализация ядра свертки

Краткое изложение технологии визуализации CNN (три) визуализации

Краткое описание технологии визуализации CNN (4) инструменты и проекты визуализации

Резюме инструментов аннотирования изображений в компьютерном зрении

Обзор и сводка различных алгоритмов оптимизации градиентного спуска Optimizer

Резюме | Классические наборы данных с открытым исходным кодом в стране и за рубежом

Функция Softmax и ее недоразумения

Общие стратегии повышения производительности моделей машинного обучения

Совместное использование ресурсов | SAHI: библиотека гипервыводов с помощью срезов для обнаружения небольших целей на очень больших изображениях

Резюме инструментов аннотирования изображений в компьютерном зрении

Влияние размера партии на обучение нейронной сети

Резюме методов настройки параметров для гиперпараметров нейронной сети

Загружайте модели PyTorch в 340 раз быстрее с помощью Ray

Резюме инструментов аннотирования изображений в компьютерном зрении

Обзор последних исследований по обнаружению малоразмерных целей в 2021 году

Серия Classic Paper — Капсульные сети: новая сеть глубокого обучения

Краткое изложение терминологии компьютерного зрения (1) Создание системы знаний для компьютерного зрения

Обзор непродолжительного обучения компьютерному зрению