Бумажные заметки «Каскад R-CNN: углубление в обнаружение объектов высокого качества»

На главной конференции этого года в области изображений, CVPR, было представлено множество докладов по обнаружению целей.Cascade R-CNN: Delving into High Quality Object DetectionВ этой статье основное внимание уделяется лучшему выбору долговой расписки, небольшому трюку, но по эффекту он дает хорошее улучшение.

Резюме

При обнаружении цели необходимо определить порог IOU, чтобы отличить положительные образцы от отрицательных. Низкий порог, такой как 0,5 для обучения сети, подвержен шуму обнаружения, но по мере увеличения порога IOU эффективность обнаружения снижается. Два основных фактора: 1) переобучение при обучении, приводящее к исчезновению положительного показателя степени; 2) несоответствие между оптимальной IOU алгоритма обнаружения и гипотетической IOU. В многоэтапной архитектуре обнаружения объектов для решения двух вышеуказанных задач предлагается каскадный алгоритм R-CNN. Алгоритм состоит из серии детекторов, обучаемых по мере увеличения порога IOU, которые постепенно становятся более избирательными в отношении близких ложных срабатываний. Детектор обучается поэтапно, и если выход детектора является хорошим распределением, он используется для обучения лучшего детектора на следующем этапе. Повторная выборка постепенно улучшающихся гипотез гарантирует, что все детекторы состоят из набора положительных выборок одинакового размера, что устраняет проблему переобучения. Та же каскадная процедура применяется на этапе гипотезы, так что качество гипотезы и детектора на каждом этапе имеет лучшую производительность согласования, простая реализация каскадного алгоритма R-CNN, производительность обнаружения в наборе данных COCO превосходит все одномодельные алгоритм обнаружения объектов. Эксперименты также показывают, что Cascade R-CNN можно широко использовать для различных архитектур обнаружения, получая усиление, не зависящее от мощности базового детектора. Кодовый адрес:GitHub.com/Чжао Вэйцай/….

Обзор метода

Проблема обнаружения сильно отличается от проблемы классификации.Проблема обнаружения должна различать положительные и отрицательные образцы через IOU, поэтому выбор IOU оказывает большое влияние на обучение и вывод. Автор провел серию экспериментов.

Как показано на рисунке (а), пороговое значение 0,5 будет иметь много шума, и при этом пороговом значении трудно отличить ложные обнаружения, подобные положительным образцам; и лучшее пороговое значение, алгоритм обнаружения в основном не имеет ложных срабатываний. На рисунке c горизонтальная ось — это IOU предложения, вертикальная ось — это новая IOU, полученная после обучения Box reg, а разные линии представляют детекторы, обученные с разными пороговыми значениями. Общий тренд всех трех линий показывает, что чем выше IOU, тем лучше регресс детектора. От 0,55 до 0,6 наилучшую производительность имеет детектор, обученный с порогом 0,5, от 0,6 до 0,75 — детектор с порогом 0,6, а выше 0,75 — детектор, обученный с порогом 0,7. производительность . Вышеприведенный анализ показывает, что когда порог IOU самого предложения близок к порогу во время обучения, производительность детектора является лучшей. Однако это вызывает проблему:Существует большое количество наборов данных для обучения и тестирования при обнаружении целей.Если используется один порог IOU, возьмите в качестве примера обычно используемый 0,5. В предложении все долговые расписки выше 0,5 будут считаться положительными образцами, а в предложениях от 0,6 до 0,95 порог 0,5 будет работать хуже. Если выбрано пороговое значение 0,7, пороговое значение 0,7 на рисунке (c) также имеет лучшую производительность, но на рисунке (d) пороговое значение 0,7 работает хуже всего, потому что пороговое значение 0,7 значительно снизит количество обучающих выборок.Переобучение может быть очень серьезным.

Чтобы решить вышеуказанные проблемы, автор предлагает каскадную структуру R-CNN для обучения следующего этапа с выходом одного этапа. На рисунке (c) большая часть трех строк находится выше линии y=x, что указывает на то, что после обучения предложения с помощью box reg IOU увеличивается. Поэтому автор считает, что можно каскадировать несколько детекторов. Например, последовательно соединены три детектора с IOU 0,5.0,6 и 0,7. Для предложения с IOU 0,55 после детектора 0,5 IOU становится 0,7; после Детектор 0,6, IOU становится 0,85 После детектора 0,7, IOU становится 0,89. Этот способ обучения лучше любого отдельного детектора.Помимо улучшения IOU, после нескольких детекторов IOU предложения становится выше, а качество положительных образцов будет лучше.Даже если порог IOU следующего детектора установлен выше, не слишком много образцов будет отброшено. , Эффективно смягчить явление переобучения.

Доказательство связанной работы и сравнения

Автор сравнивает свою работу с другими работами.

На приведенном выше рисунке ==H0== представляет региональную сеть предложений, ==H1== представляет слой объединения ROI, ==C== представляет классификационную оценку, ==B== представляет регрессию ограничивающей рамки Рисунок (а) представляет собой классическую модель инфраструктуры Faster R-CNN. Сетевая модель этой статьи также расширена на основе модели Faster R-CNN; Interarive BBox на рисунке (b) использует каскадную структуру для регрессии Box , Но видно, что часть сети обнаружения ROI имеет ту же структуру «H1», то есть используемая каскадная структура точно такая же. Формула части регрессии ограничивающей рамки такая же, как и в Faster R-CNN, и здесь повторяться не будет.

Горизонтальная и вертикальная оси первой строки на приведенном выше рисунке представляют собой смещения по осям x и y блока в целевом объекте регрессии соответственно, а горизонтальная и вертикальная оси второй строки представляют собой отклонения ширины и высоты поле в цели регрессии. Видно, что от 1-го ко 2-му этапу в каскаде распределение предложения сильно изменилось.Появляется много шума, увеличивающего IOU после обучения бокс-регу.Красные точки на 2-м этапе и 3-й этап относятся к выбросам. Поэтому необходимо увеличить порог, чтобы убрать шумовые помехи в последующей каскадной структуре. Но, как упоминалось ранее, увеличение порога уменьшит количество положительных образцов.В предисловии дается перцептивное объяснение, а автор дает более уверенную теоретическую основу.

Из приведенного выше рисунка видно, что часть больше 0,5 на 1-м этапе в основном такая же по количеству, как часть больше 0,6 на 2-м этапе, а часть больше 0,7 на 3-м этапе.

Interative Loss на рисунке 3(c) не имеет каскадной структуры.Эта структура использует разные пороги для классификации, а затем объединяет несколько результатов для вывода классификации, и только один результат берется для регрессии ограничивающей рамки. Автор указал, что из части 1-го этапа рисунка 4 видно, что чем выше IOU, тем меньше доля предложения, поэтому структура Interative Loss не может принципиально преодолеть явление переобучения.

эксперимент

Каскадная структура, предложенная автором, представлена в (d) на рисунке 3. Структура, принятая автором, представляет собой сеть RPN плюс 3 детектора (пороги 0,5/0,6/0,7 соответственно). В этих трех каскадных детекторах вход каждого детектора является результатом регрессии ограничивающей рамки предыдущего слоя детекторов. Результаты экспериментов с набором данных COCO следующие:

Эффект от авторского метода до сих пор поражает, а еще автор сравнивает время работы сети

Видно, что хотя использование каскада в определенной степени увеличивает параметры, влияние на КПД остается в допустимых пределах.

Суммировать

Большая разница между задачами обнаружения целей и задач классификации заключается в том, что образцы в наборе данных четко не различают положительные и отрицательные образцы.В задаче обнаружения положительные и отрицательные образцы различаются путем установки значения IOU, что связано с проблемой Настройка параметров.Возможно Мучения, которые претерпел автор при настройке параметров IOU для сравнительных экспериментов. В сравнительном эксперименте, проведенном автором, также сравниваются некоторые структурные корректировки, сделанные предшественниками по оптимизации параметров IOU.Метод, предложенный Cascade R-CNN, является шагом вперед на основе предшественников, и теоретический анализ также очень разумен. .

Наконец-то сделайте рекламу: добро пожаловать в мою учетную запись Nuggets и личный блогБлог Чонг Вэй.