В общих алгоритмах обнаружения целей отсутствует изучение эффектов локализации IoU-Net предлагает предиктор IoU, NMS на основе IoU и уточнение ограничивающей рамки на основе оптимизации, а также интегрирует IoU как новую ветвь в обучение модели и рассуждения, внося новый метод оптимизации производительности. стоит изучить и сослаться

Диссертация: Приобретение уверенности в локализации для точного обнаружения объектов

Бумажный адресarxiv.org/abs/1807.11590
кодовый адресGitHub.com/вакансии/пред…

Introduction

Большинство современных алгоритмов обнаружения целей представляют собой в основном двухэтапные архитектуры, которые превращают обнаружение целей в многозадачное обучение:

Прогнозировать предложения объектов переднего плана и маркировать
Распознанные блоки точно настраиваются с помощью регрессии bndbox
Фильтрация избыточных ящиков по NMS

Локализация и распознавание цели выполняются двумя разными ветвями.Для предсказанного ящика есть только достоверность классификации и нет достоверности местоположения, что приводит к следующим двум проблемам:

Из-за недостаточной надежности местоположения при выполнении NMS достоверность классификации можно использовать только в качестве индикатора.Из рисунка а видно, что IoU кадра-кандидата не имеет положительной корреляции с достоверностью классификации.
Из-за недостаточной надежности позиционирования регрессию с ограничивающей рамкой становится трудно объяснить, как показано на рисунке b, повторяющаяся регрессия с ограничивающей рамкой может привести к снижению точности позиционирования.

Основываясь на приведенных выше выводах, автор предлагает IoU-Net, который прогнозирует оценку IOU текущего ящика в качестве критерия для модуля локализации, тем самым решая две проблемы, упомянутые ранее, с другой точки зрения:

IoU — лучший стандарт точности позиционирования.При выполнении NMS вместо достоверности классификации используется прогнозируемый IOU, который в этой статье называется IoU-guided NMS.
В этой статье предлагается метод оптимизации bndbox, основанный на процедуре уточнения ограничивающего прямоугольника на основе оптимизации. При прогнозировании используйте прогнозируемый IoU в качестве индикатора оптимизации и используйте Precise RoI Pooling. Слой использует градиентное восхождение для регрессии блоков. Эксперименты показывают, что метод, основанный на оптимизации, лучше, чем метод, основанный на регрессии, и метод, основанный на оптимизации, также может быть перенесен на другие детекторы на основе CNN.

#Delving into object localization

В текущем целевом позиционировании есть две проблемы: одна — несоответствие между достоверностью классификации и надежностью фиксированной позиции, а другая — немонотонная регрессия ограничивающей рамки.

Misaligned classification and localization accuracy

Большинство современных методов локализации используют NMS для удаления избыточных bndbox’ов, при этом в каждой итерации сохраняются bndbox'ы с более высокой достоверностью классификации, что явно нецелесообразно. В последнее время появилось много новых вариантов NMS, но в конечном итоге в качестве критерия по-прежнему используется достоверность классификации. В документе показана диаграмма рассеяния IoU и достоверности классификации до NMS.Из рисунка 2 видно, что надежность местоположения, предложенная в этой статье, имеет более сильную корреляцию с IoU.

Кроме того, в документе сравнивается производительность NMS с IoU-Guided и традиционной NMS.Из рисунка 3 видно, что NMS с IoU-Guided может сохранять больше высококачественных блоков, особенно когда Iou>0,9

Non-monotonic bounding box regression

регрессия ограничивающей рамки Основная идея задачи состоит в том, чтобы напрямую предсказать трансформацию между bndbox и gt через сеть, и большинство детекторов выполняют квадратичную регрессию на bndbox для достижения цели оптимизации. Cascade-RCNN указал, что использование более чем двух последовательных регрессий с ограничивающими рамками не принесет большой пользы, поэтому он предложил многоступенчатую регрессию с ограничивающими рамками.

В этой статье эффекты множественной регрессии и множественной оптимизации сравниваются в рамках FPN и Cascade-RCNN. Как показано на рис. 4, по мере увеличения числа итераций кривая AP на основе оптимизации остается монотонной.
#IoU-Net

Learning to predict IoU

Как показано на рисунке 5, предиктор IoU использует карту признаков FPN для прогнозирования IoU каждого bnbbox, но не использует кадр-кандидат FPN для обучения, а вручную выполняет ряд преобразований на GT для получения нового кадра-кандидата ( удалить и GT-кандидаты с небольшим перекрытием 0,5). Предсказатель IoU совместим с большинством детекторов на основе RoI, поскольку модуль относительно независим. Стоит отметить, что в статье упоминалось, что для лучшей производительности предсказатель IoU учитывает классы, то есть он может предсказывать IoU каждой классификации.

IoU-guided NMS

IoU-Net использует прогнозируемый IoU в качестве стандарта для сортировки bndbox в NMS и сохраняет только избыточный блок с наибольшим IoU.

Псевдокод NMS, управляемой IoU, приведен в статье, логика относительно проста, и ящик с наивысшим баллом IoU в поле-кандидате вынут. b_m , выньте в оставшейся коробке с b_m перекрытие больше, чем $\Omega$ коробка b_j , максимальная достоверность классификации в перекрывающихся прямоугольниках и b_m Добавьте к выходу, пройдите, пока не останется больше блоков-кандидатов

Bounding box refinement as an optimization procedure

Задача тонкой настройки bndbox может быть сформулирована как c^* задача оптимизации

Во время рассуждений алгоритм на основе регрессии напрямую предсказывает оптимальную c^* . Однако итеративная регрессия с граничной рамкой нестабильна, поэтому в этой статье предлагается уточнение граничной рамки на основе оптимизации. IoU-Net напрямую оценивает IoU между блоком прогнозирования и GT.Слой Precise RoI Pooling позволяет вернуть градиент IoU к значению координат блока, поэтому метод градиентного восхождения можно использовать для оптимизации уравнения 1.

Как и в алгоритме 2, прогноз IoU берется в качестве цели оптимизации, а рассчитанный градиент используется для итеративной точной настройки кадра прогноза, так что прогнозируемое значение IoU близко к 1 (т.е. GT). Кроме того, прогнозируемый IoU можно использовать для оценки плюсов и минусов всех bndbox, сгенерированных в середине. Во время внедрения для IoU, предсказанного тонкой настройкой bndbox, если доход меньше ожидаемого или даже ухудшился, тонкая настройка bndbox будет прекращена заранее. Интересно, что, как показано в шестой строке, алгоритм будет масштабировать возвращаемый градиент, например $\nabla_x *=width(b_j)$ , что поясняется в тексте как эквивалентное логарифмическому преобразованию координат в прямоугольной регрессии (x/w, y/h, $\log_{10} w$ , $\log_{10} h$ ), а затем оптимизировать

####Precise RoI Pooling

Как упоминалось ранее, ключом к уточнению ограничивающей рамки на основе оптимизации является использование слоя Precise RoI Pooling, чтобы можно было вернуть градиент. В статье приводится сравнение нескольких основных слоев Pooling.

RoI Pooling

Для классического опроса RoI, если информация о координатах не является целым числом, ее необходимо сначала преобразовать в целое число, чтобы она стала определенной точкой, а затем вычислить значение отклика в ячейке. Это приведет к искажению исходной области области интереса, что приведет к неточным результатам.

RoI Align

Чтобы удалить влияние квантования, RoI Align производит выборку N=4 точек из бина ( a_i , b_i ), каждая точка выборки получается билинейной интерполяцией с ее ближайшими 4 характерными точками, и объединение выполняется в точке выборки

PrRoI Pooling

Хотя RoI Align позволяет избежать ошибки квантования, N является предустановленным гиперпараметром и не будет меняться в зависимости от размера ячейки.Когда возвращается градиент, только точки выборки могут возвращать градиент. Precise RoI Pooling не выполняет никакого квантования и выборки, а напрямую вычисляет интеграл второго порядка в непрерывной карте объектов.

Сначала определите собственные значения любой точки на карте объектов f(x, y) Его можно рассчитать билинейной интерполяцией соседних дискретных точек, IC(x, y, i, j)=max(0,1-|x-i|) *max(0, 1-|y-j|) – коэффициент билинейной интерполяции, из формулы видно, что только использование (x, y) последние четыре пункта

Когда вам нужно рассчитать объединение бункеров, используйте интеграл второго порядка для прямого расчета.Здесь он должен быть выражен как среднее объединение, а знаменатель - это площадь бункера.

Поскольку в интегральных рассуждениях второго порядка используется PrPool(Bin, F) Он постоянно дифференцируем, поэтому можно получить частную производную координат для точной настройки bndbox, в то время как слой объединения области интереса и слой выравнивания области интереса могут возвращать только градиент карты объектов.
Автор приводит код слоя PrPooling, который использует дискретные точки для аппроксимации интеграла непрерывной функции. Следует отметить, что формула 4 вычисляет частную производную координаты бина, а не частную производную координаты RoI, поэтому в конце градиента координат назад автор добавляет вес частной производной бина к градиенту РОИ. Однако смысл этой весовой формулы автор не понял.Друзья, которые понимают, могут оставить сообщение для обмена.

Joint training

Предсказание IoU можно интегрировать в стандартную сеть FPN для сквозного обучения, как показано на рис. 5. IoU-Net использует ResNet-FPN в качестве основы, FPN извлекает признаки различных размеров в области интереса и заменяет исходный Слой опроса области интереса с точным уровнем объединения областей интереса, предиктор IoU и ветвь R-CNN рассчитываются параллельно.

Во время обучения используется предварительно обученный ResNet ImageNet, остальные новые слои используют распределение Гаусса со средним значением 0 и стандартным отклонением 0,01 или 0,001, а предиктор IoU обучается с использованием Smooth-L1. Ввод изображения: 800 для короткой стороны / 1200 для длинной стороны.Ветвь классификации и регрессии получает 512 bndbox для каждого изображения.batch_size равен 16. Всего выполняется 160 тыс. итераций.Раунд разогревается со скоростью обучения 0,004, а распад веса равен $le^{-4}$ , импульс равен 0,9
Во время вывода сначала выполняется раунд регрессии ограничительной рамки в качестве инициализации координат.Чтобы оптимизировать производительность, NMS под управлением IoU впервые выполняется на желаемом bndbox, и 100 bndbox с наивысшей достоверностью выбираются для оптимизации на основе Алгоритм В Алгоритме 2 из $\lambda=0.5$ , $\Omega_1=0.001$ , $\Omega_2=-0.001$ ,

Experiments

IoU-guided NMS

В документе сравнивается производительность no-NMS/Soft-NMS/IoU-NMS в разных сетях и с разными требованиями к точкам доступа. $AP_{90}$ , производительность более заметна

В документе подсчитываются отзывы при различных пороговых значениях IoU, что также показывает, что IoU-NMS может сохранять больше высококачественных кадров.

Optimization-based bounding box refinement

В разных сетях уточнение ограничительной рамки на основе оптимизации имеет хорошую производительность. $AP_{80}$ $AP_{90}$ Спектакль на

Joint training

С помощью различных комбинированных экспериментов сделан вывод о том, что инновации, предложенные в статье, дают хорошие результаты.

Кроме того, более удивительно, что скорость IoU-Net не упала сильно, даже быстрее, чем Cascade R-CNN, что может быть связано с тем, что у bndbox осталось 100 до оптимизации ограничивающей рамки на основе оптимизации.

Conclusion

В документе анализируются проблемы текущих алгоритмов обнаружения целей и предлагается предиктор IoU для прогнозирования надежности местоположения, чтобы выполнить более точную настройку bndbox и NMS. Кроме того, NMS, управляемая IoU, и уточнение ограничительной рамки на основе оптимизации, предложенное в документе, довольно хороши из эксперимента, и ветвь IoU может быть легко интегрирована в другие сети, что очень важно.

Писать нелегко, пожалуйста, не перепечатывайте без разрешения~ Для получения дополнительной информации, пожалуйста, обратите внимание на колонку Zhihu / общедоступную учетную запись WeChat [Примечания по разработке алгоритмов Xiaofei]