CVPR 2018 | Cascade R-CNN: к высокоточным детекторам объектов

искусственный интеллект алгоритм компьютерное зрение Caffe
Эта статья написанаБлог Поул СитиОригинал от Panzer.


Адрес бумаги:АР Вест V.org/ABS/1712.00…

Кодовый адрес:GitHub.com/Чжао Вэйцай/…


Введение

Общее обнаружение объектов — одна из наиболее распространенных проблем компьютерного зрения. Хотя алгоритм обнаружения целей от CNN в последние годы добился быстрого прогресса в точности по сравнению с традиционными методами, ему еще предстоит пройти долгий путь по сравнению с проблемой классификации целей. Методы раннего обнаружения целей в основном основывались на структуре VJ.Основная идея заключалась в том, чтобы перечислить большое количество скользящих окон на изображении, извлечь функции изображения в скользящих окнах и оценить скользящие окна с помощью каскадных классификаторов.Скользящее окно сохраняется как окончательный результат обнаружения. Поскольку Бог RBG привнес RCNN в область обнаружения целей, обнаружение целей было построено как задача классификации + регрессии, которую необходимо решить.Эта волна в основном управляется двумя типами алгоритмов: двухэтапным методом, представленным Faster R-CNN, и Метод на основе SSD, Репрезентативный одноэтапный метод, в котором Faster R-CNN более точен, а SSD быстрее.


Автор этой статьи — большая корова в области обнаружения целей, еще на ECCV 2016 он запустил шедевр обнаружения целей, MSCNN [1], который в основном решает многомасштабную задачу в области обнаружения целей. Эта статья в основном направлена ​​на выбор порога IoU в процессе обучения обнаружению целей.Автор глубоко задумается над этой проблемой и воспользуется каскадной идеей в традиционном методе, представив нам теоретический и экспериментальный опыт.Чудесное застолье .


основное содержание

фундаментальный вопрос

Как мы все знаем, когда Бог RBG привносит RCNN в область обнаружения целей, обнаружение целей строится как задача классификации + регрессии, поэтому проблема обнаружения, по сути, является проблемой классификации, но она сильно отличается от проблемы классификации. , потому что в задаче обнаружения В середине оцениваются все кадры-кандидаты на изображении, а положительные и отрицательные выборки определяются порогом IoU в процессе обучения.Поэтому выбор порога IoU представляет собой набор гиперпараметров, которые нужно тщательно выбирать. С одной стороны, чем выше выбран порог IoU, полученные положительные образцы находятся ближе к цели, поэтому обученный детектор может быть расположен более точно, но слепое увеличение порога IoU вызовет две проблемы: первая заключается в том, что слишком мало положительных выборки приводят к переобучению обучения Во-вторых, использование разных порогов для обучения и тестирования приводит к снижению эффективности оценивания, с другой стороны, чем ниже выбран порог IoU, тем больше положительных выборок получается, что способствует обучение детектора, но неизбежно приведет к тестированию.Много ложных проверок, то есть упомянутых в статье «близких, но не правильных». Приведенный выше анализ может быть подтвержден следующей серией экспериментов, проведенных автором:



Рисунок 1 (c) показывает изменение IoU между целевым кадром-кандидатом и реальным целевым кадром после одной регрессии. Горизонтальная ось представляет до регрессии, а вертикальная ось представляет после регрессии. Кривые с разными цветами отражают обнаружение другого порога IoU обучение.устройство. В общем, после регрессора IoU целевого кадра-кандидата улучшился, но разница в том, что когда IoU находится между 0,55 и 0,6, регрессор, обученный на основе порога IoU, равного 0,5, имеет лучший результат (синяя линия). ; Когда IoU находится между 0,6 и 0,75, выход регрессора, обученного на основе порога IoU 0,6, является лучшим (зеленая линия); когда IoU выше 0,75, выход регрессора, обученного на основе порога 0,7 является лучшим (красная линия). Приведенные выше результаты показывают, что для получения детектора с более высокой точностью позиционирования необходимо выбрать больший порог IoU (то есть, чем больше IoU, тем лучше), однако результаты на рисунке 1(d) показывают, что детектор, обученный на основе порога 0,7 AP (красная линия) является худшим Только когда порог IoU составляет 0,85 или выше для оценки, результат немного лучше, чем синяя линия, но все же хуже, чем зеленая линия, что полностью подтверждает наш предыдущий анализ: на основе 0,7 В детекторе, обученном порогом IoU, слишком мало положительных образцов, поэтому разнообразия положительных образцов недостаточно, что легко приводит к переобучению обучения, поэтому он плохо работает на проверочном наборе. . Затем автор думает, есть ли способ обучить детектор с более высоким порогом IoU, гарантируя, что разнообразие положительных образцов будет достаточно богатым? Основываясь на приведенном выше анализе, ниже мы подробно обсудим Cascade R-CNN, предложенный автором, и его основная идея — «разделяй и властвуй».


Структура модели

На рис. 3 представлено интуитивное сравнение нашего метода и других родственных работ. (d) показывает базовую структуру Cascade R-CNN в этой статье; (a) представляет собой классическую структуру Faster R-CNN, которая также является основой этой статьи; (b) структура очень похожа на Cascade R-CNN. , разница в том, что он тестируется только в Каскадная структура используется для регрессии Box несколько раз, поэтому структура «H1» части сети обнаружения ROI одинакова, то есть во время обучения используется один порог IoU; (c) Несколько детекторов подключены параллельно в части сети обнаружения ROI.Эти детекторы не связаны между собой, что несколько похоже на идею «мультиэксперта».




Хотя итеративный BBox на рис. 3(b) использует каскадную структуру для выполнения множественных регрессий на Box, использование одного порога IoU для обучения уникального детектора приведет к следующим проблемам: распределение выборок после прохождения целевым блоком-кандидатом детектора с порогом 0,5 Изменения произошли.Как показано на рисунке ниже, можно обнаружить, что после нескольких этапов детекторов распределение положительных образцов более сконцентрировано в центральной точке, что указывает на то, что степень соответствия между положительными образцами и реальная цель становится все выше и выше.В это время снова используется тот же самый.Обучение детектора с порогом IoU явно неоптимально, потому что, если порог IoU не увеличить, чтобы удалить эти красные выбросы, будет много шума быть введены, поэтому необходимо увеличить порог IoU для обеспечения качества образцов.



С другой стороны, простое увеличение порога IoU вызывает вопрос: уменьшает ли это количество положительных образцов? Это правда, что если начальный целевой кадр-кандидат все еще используется, ответ положительный, но в этой статье выполняется повторная выборка из целевого кадра-кандидата после регрессора, этот вопрос не возникает, о чем свидетельствует следующая картина: после нескольких этапов После этого , IoU положительных образцов постоянно улучшается.Мы можем произвольно увеличивать порог IoU и по-прежнему получать достаточное количество положительных образцов.



На данный момент мы завершили объяснение основной части Cascade R-CNN, В обучении используется общая классификация + регрессионная потеря, которая здесь повторяться не будет.


анализ эксперимента

Детали эксперимента

(1) Эксперимент по проверке был проведен на MS-COCO 2017, и все детекторы были разработаны на основе структуры caffe, чтобы обеспечить объективность сравнения.

(2) В каскадной структуре, выбранной автором, имеется 4 этапа, а пороги IoU установлены как прогрессивные 0,5/0,6/0,7 соответственно, те, которые превышают этот порог, выбираются как положительные выборки, а остальные - как отрицательные выборки.


Результаты экспериментов

Прежде всего, рассмотрим усовершенствование Каскада в этой статье для разных детекторов.Автор выбрал три двухкаскадных детектора: Faster R-CNN, R-FCN и FPN.Это можно найти из таблицы ниже: без добавление всяких хитростей При этом для разных детекторов и разных эталонных сетей Cascade может стабильно улучшаться примерно на 3-4 балла, и чем выше порог IoU, тем очевиднее улучшение.Эффект, показанный в этой таблице, вполне убедителен.



Кроме того, в статье приводится большое количество экспериментов по пилингу для проверки эффективности Cascade (см. рисунок ниже).



Из этого можно сделать следующие выводы: Таблица 1 полностью демонстрирует превосходство Cascade над Iterative BBox и потери Intergral, особенно в AP90. Что касается показателей оценки, это показывает необходимость улучшения порога IoU для обучения каскадных детекторов.Таблица 2 показывает необходимость объединения оценок классификации нескольких классификаторов.Что касается показателей AP, этап 2 показывает улучшение производительности на 3 балла по сравнению с этапом 1. , Тем не менее, этап 3 не показывает преимущества перед этапом 2, и комбинированный классификационный балл нескольких классификаторов может улучшить AP до 38,9. Таблица 3 показывает необходимость увеличения порога IoU и использования другой статистики регрессии. Сравнение показывает, что первый более важен, чем последний, что еще раз доказывает необходимость увеличения порога IoU для обучения каскадного детектора, Таблица 4 показывает, что использование нескольких этапов приведет к насыщению производительности.Можно обнаружить, что этап 4 уже не может принести улучшения производительности, а этап 3 can Наивысшая точка AP составляет 38,9, а улучшение производительности, вызванное этапом 2, является наиболее очевидным, поэтому для практических приложений достаточно двух этапов.


Сводная перспектива

Вклад этой статьи

(1) Проблема выбора порога IoU при обнаружении цели глубоко изучена, и влияние выбора порога IoU на производительность детектора подтверждено большим количеством экспериментального анализа;

(2) На основе анализа вышеуказанных проблем предлагается каскадный вариант Faster R-CNN, то есть алгоритм обнаружения целей Cascade R-CNN, который отображается на общем наборе данных обнаружения целей MS COCO без использования любые трюки.очень хорошее исполнение.

личное мнение

(1) В этой статье обсуждается давняя, но очень важная проблема выбора порога обнаружения цели-IoU, которая является очень вдохновляющей работой.Автор сочетает идею каскада в традиционном методе с текущей основной структурой обнаружения Faster R-CNN, который выводит двухэтапный метод на новый уровень эффективности обнаружения в существующих наборах данных. Помимо большого количества экспериментального анализа в этой статье, когда мы пересматриваем две основные структуры текущих алгоритмов обнаружения целей (Faster R-CNN и SSD), стоит задуматься над вопросом, почему уровень точности Faster R-CNN выше, чем у SSD. Автор считает, что одним из ключей является то, что Faster R-CNN выполняет два прогноза для целевого кадра-кандидата, один для RPN и один для последующего детектора. Автор этой статьи идет еще дальше, размещая несколько каскадных модулей в последней части детектора и используя различное пороговое обучение IoU для дальнейшего повышения точности Faster R-CNN. Потом задумаемся, когда появится верхний предел этого улучшения? Таблица 4 показывает, что производительность каскада R-CNN достигла насыщения на этапе 3, что все еще далеко от наших ожиданий, Дальнейшее улучшение верхнего предела каскада является проблемой, заслуживающей дальнейшего изучения.


(2) Эксперименты в этой статье раскрывают два ключа к успеху Cascade R-CNN: один заключается в каскадных детекторах вместо параллельных, а другой — в повышении порога IoU для обучения каскадных детекторов. Однако экспериментальная проверка выполняется в рамках системы обнаружения Faster R-CNN.Учитывая, что в реальных сценариях применения нас больше беспокоит своевременность обнаружения, можно ли перенести эту каскадную идею в структуру обнаружения SSD для улучшения SSD? точность, что также является проблемой, которую стоит изучить.


(3) Более примечательным вкладом этой статьи является то, что за счет увеличения порога IoU для обучения каскадного детектора точность обнаружения детектора может быть выше.При более строгой оценке порога IoU Cascade R-CNN обеспечивает повышение производительности. Надо сказать, что Cascade R-CNN сделал решительный шаг в сторону высокоточного детектора целей, а это именно то, что мы хотим видеть в практических приложениях.


использованная литература

[1] A unified multi-scale deep convolutional neural network for fast object detection. ECCV (2016)


Эта статьяПлатформа полюсного рынкаДля получения оригинальных статей, большего обмена технологиями и сотрудничества в проектах, пожалуйста, обратите внимание на экстремальную рыночную платформу WeChat (extrememart).