Дизайн алгоритма обнаружения DenseBox очень продвинут.Сегодня у многих Anchor-free методов есть свои тени.Если бы он не появился чуть позже, чем Faster R-CNN в то время, поле обнаружения целей, возможно, начало развиваться в направление Anchor-бесплатно очень рано.

Источник: Заметки по разработке алгоритмов Xiaofei Public Account.

Документ: DenseBox: Объединение локализации ориентиров с обнаружением сквозных объектов

Адрес бумаги:АР Вест V.org/ABS/1509.04…

Introduction

DenseBox — это ранний алгоритм обнаружения целей без Anchor.В то время у серии R-CNN были явные узкие места в обнаружении мелких объектов, поэтому автор предложил DenseBox, который также имеет хорошую производительность при обнаружении мелких объектов. В первые дни DenseBox появился знаменитый Faster R-CNN, и его мощная производительность привела к развитию алгоритмов обнаружения целей в направлении на основе привязки. Только с появлением FPN производительность алгоритма без привязки была значительно улучшена, и началось больше работы, связанной с полем без привязки. В настоящее время многие исследования обнаружения целей без привязки имеют тень DenseBox, поэтому идея дизайна DenseBox все еще очень продвинута.

DenseBox for Detection

Общий дизайн DenseBox показан на рисунке 1. Одна сверточная сеть одновременно выводит несколько блоков прогнозов и достоверность их категорий, а размер выходной карты признаков составляет $5\times \frac{m}{4}\times \frac{n}{4}$ . гипотетический пиксель $i$ роды $(x_i, y_i)$ , его ожидаемый 5-мерный вектор равен $\hat{t}_i=\{\hat{s}, \hat{dx^t}=x_i - x_t, \hat{dy^t}=y_i - y_t, \hat{dx^b}=x_i - x_b, \hat{dy^b}=y_i - y_b \}$ , первый — это достоверность классификации, последние четыре — расстояние от положения пикселя до целевой границы, и, наконец, выходные данные всех пикселей преобразуются в кадр прогнозирования, а окончательный вывод выполняется после обработки NMS.

Ground Truth Generation

DenseBox не использует полную картинку в качестве входных данных во время обучения, а перехватывает большую область, содержащую цель и достаточный фон для обучения. Во время обучения измените размер захваченного изображения на больший размер $240\times 240$ , чтобы лицо располагалось в центре перехваченной области и высота была около 50 пикселей, выводим $5\times 60\times 60$ карта характеристик. Область положительного образца представляет собой целевую центральную точку с радиусом $r_c$ внутренний круг, $r_c$ В зависимости от размера мишени, бумага установлена на 0,3. Если перехваченная область содержит несколько лиц, сохраняются только лица, центральная точка которых находится в диапазоне от 0,8 до 1,25 центра перехваченной области, а остальные считаются отрицательными образцами.

Model Design

Структура сети DenseBox показана на рисунке 3. Он содержит сверточные слои 16. Первые 12 сверточных слоев инициализируются VGG19. Сеть также добавляет некоторое слияние функций между различными слоями, которое может интегрировать функции разных рецептивных полей.

Multi-Task Training

Сеть одновременно выполняет классификацию и прогнозирование положения.Сеть изучается совместно двумя задачами, а значение потерь задачи классификации напрямую рассчитывается по потерям L2:

Значение потерь для задачи прогнозирования положения также рассчитывается по потерям L2:

Поскольку в статье для обучения используется метод перехвата изображений, она столкнется с проблемой создания образцов, и DenseBox проделал некоторую работу по созданию и обучению положительных и отрицательных образцов:

Игнорируя серую зону, серая область представляет собой область перехода между положительными и отрицательными точками и не участвует в расчете значения потерь. Для неположительной точки выборки, если в радиусе 2 есть положительная точка выборки, она будет классифицирована как серая область.
Hard Negative Mining: в процессе обучения выборки сортируются по формуле 1, а верхний 1% берется в качестве жестко-отрицательной, что может помочь сети сосредоточиться на изучении этих сложных выборок.
Потеря с маской, которая определяет маску карты объектов в соответствии с типом пикселя. $M(\hat{t}_i)$ и объедините уравнение 1, уравнение 2 и маску, чтобы вывести окончательное значение потерь:

В дополнение к вышеперечисленным пунктам, чтобы лучше использовать роль отрицательных образцов, статья также случайным образом вырезает обучающий набор для создания достаточного количества случайных отрицательных образцов. Во время обучения изображения положительных образцов и случайные изображения отрицательных образцов подаются в сеть в соотношении 1:1. Кроме того, для повышения надежности сети выполняются некоторые дополнения данных:

Произвольное сглаживание каждого захваченного изображения
Перевернуть влево и вправо
Перемещение по горизонтали в пределах 25 пикселей
Случайное масштабирование [0,8, 1,25]

Landmark Localization

Основываясь на приведенном выше дизайне, DenseBox также можно использовать для определения местоположения маркеров, просто нужно добавить несколько слоев на исходную основу для прогнозирования маркеров. В документе также было обнаружено, что результаты обнаружения можно дополнительно скорректировать, объединив ветвь маркера и ветвь классификации.Конкретный метод показан на рисунке 4. Функция потерь для корректировки вывода принимает функцию L2 в качестве потери классификации. В этот момент полная потеря сети становится:

Experiments

Сравнение производительности по ключевым точкам лица.

Сравнение производительности в задаче обнаружения ключевых точек автомобиля.

Conclusion

Дизайн алгоритма обнаружения DenseBox очень продвинут.Сегодня у многих Anchor-free методов есть свои тени.Если бы он не появился немного позже, чем Faster R-CNN в то время, поле обнаружения цели, возможно, начало развиваться в направление Anchor-бесплатно очень рано.

Если эта статья была вам полезна, ставьте лайк или смотрите~

Для получения дополнительной информации, пожалуйста, обратите внимание на общедоступную учетную запись WeChat [Примечания по разработке алгоритмов Xiaofei].

work-life balance.