проблема
В этой статье сначала анализируется необходимость сети FPN. И экспериментально доказано, что причина эффективности FPN не в интеграции функций с разными масштабами, а в применяемом методе «разделяй и властвуй». Результаты эксперимента представлены на рисунке:
Среди них MiMo (Multi-Input-Multi-Output) указывает, что в качестве входных данных используются карты признаков разных масштабов, в то время как карты признаков разных масштабов соответствуют множеству выходных данных, а SiMo (Single-Input-Multi-Output) указывает, что только используются одномасштабные функции.Изображение берется в качестве входных данных, а затем карта функций подвергается понижающей или повышающей дискретизации, и, наконец, генерируются выходные данные различных масштабов. Остальные способы аналогичны. Из экспериментальных результатов автора видно, что производительность, полученная сетью SiMo, очень похожа на производительность, полученную сетью MiMo, а разница составляет
Поняв основные факторы успеха сети FPN, автор также проанализировал, что, хотя «разделяй и властвуй» может повысить производительность обнаружения модели, в определенной степени это приводит к дополнительным вычислительным затратам и замедляет скорость обнаружения модели. Поэтому автор по-прежнему использует детектирующую головку структуры SiSo. Чтобы иметь возможность компенсировать разницу в производительности между структурой SiSo и структурой MiMo, авторы проанализировали причины плохой производительности структуры SiSo. В основном по двум причинам:
-
Когда карта признаков масштаба обычно имеет ограниченное рецептивное поле, рецептивное поле может покрывать только часть размера цели, поэтому его эффективность обнаружения низкая. Кроме того, использование стандартных извилин и атральных извилин для расширения рецептивного поля сети принципиально не решает проблему. Поскольку этот метод умножает исходный базис на кратное число больше 1, он расширит общее рецептивное поле сети. Для получения подробной информации см. следующий рисунок:
Сплошные зеленые точки на рисунке выше представляют размер рецептивного поля, необходимого для обнаружения цели, увеличиваясь слева направо. (а) показывает рецептивное поле исходной сети. (b) показывает рецептивное поле после использования стандартной свертки и дырочной свертки.Из рисунка видно, что, хотя рецептивное поле было расширено до определенной степени, общий сдвиг вправо все еще трудно обрабатывать для некоторых небольших целей. (c) представляет собой сеть извлечения сверточных признаков на основе остатков, предложенную авторами в этой статье.
-
Проблема положительного дисбаланса якоря. При переходе от множественного выхода к одиночному количество якорей в сети значительно сократилось, что приводит к проблеме разреженных якорей.Другой проблемой, вызванной разреженными якорями, является проблема сопоставления якоря и GT. Поскольку традиционный GT и якорь обычно связаны по стратегии Max-IoU. Это приводит к тому, что большие GT обычно могут связывать больше якорей, чем маленькие GT, что заставляет сеть сосредотачиваться на больших GT, игнорируя маленькие.
Как видно из приведенного выше рисунка, Max-Iou представляет эффект связывания якоря и GT в соответствии с IoU. Большой GT привязан к множеству якорей. ATSS — еще одна стратегия распределения. Top1 выбирает только якорь с наибольшим IoU.
Решение
Проблема ограниченного рецептивного поля одной карты признаков
Автор решает проблему ограниченного рецептивного поля путем атральной свертки. Однако простое использование дырочной свертки не может кардинально решить проблему, конкретные причины были проанализированы в 1 предыдущего раздела. Поэтому автор ввел остаточную структуру ResNet. Конкретная структура показана на следующем рисунке:
Почему авторы используют сложение для объединения функций в разных масштабах вместо использования конкатенации? Цель автора - получить характеристики разных рецептивных полей в одном и том же месте. При использовании метода сплайсинга одна и та же локация по-прежнему имеет только один признак рецептивного поля, что не может удовлетворить потребности автора в данной работе. (При попытке слияния функций вы можете проанализировать, следует ли использовать метод concat или метод добавления для слияния в зависимости от конкретной ситуации)
Проблема несбалансированных положительных якорей
Разделение положительных якорей — очень важная проблема оптимизации при обнаружении объектов. В методе на основе якоря мы обычно определяем, является ли якорь положительным или нет, в соответствии с IoU якоря и GT. Когда IoU якоря и GT превышает порог, мы определяем якорь как положительный. Это приводит к большим GT и большому количеству привязок с IoU, превышающим пороговое значение. Это приводит к тому, что привязки, соответствующие большим GT, составляют большую часть всех положительных привязок, что заставляет сеть стремиться оптимизировать большие GT. Для решения этой проблемы авторы предлагают новую стратегию сопоставления, которую авторы называют Uniform-Matching.
Чтобы убедиться, что ГТ разных размеров могут соответствовать одному и тому же количеству якорей, автор не определяет, является ли якорь положительным или отрицательным в соответствии с IoU, а выбирает K якорей, ближайших к ГТ, в качестве положительных якорей. При этом отрицательные привязки с IoU больше 0,7 игнорируются, а положительные привязки с IoU менее 0,15 игнорируются.
Кроме того, автор также обнаружил, что в этой работе также очень эффективно ограничивать смещение центральной точки в пределах определенного диапазона. Автор ограничивает смещение всех центральных точек привязки не более 32 пикселей.