Бумажные заметки о очаговых потерях

глубокое обучение компьютерное зрение
Бумажные заметки о очаговых потерях

Документ: «Фокусная потеря для обнаружения плотных объектов»

Адрес бумаги:АР Вест V.org/ABS/1708.02…

Кодовый адрес:

В настоящее время точность двухэтапного метода в области обнаружения целей лучше, чем у одноэтапного метода.Хотя одноэтапный детектор и обрабатывает более плотные образцы, он должен быть быстрее и проще.Автор считает, что это ожидание не оправдалось.Причина в том, что положительные и отрицательные образцы крайне несбалансированы (передний план и фон), поэтому автор предлагает новую потерю под названием Focal Loss, которая может уменьшить вес хорошо распознаваемых образцов путем модификации стандартного кросс-энтропийную функцию, так что она будет сосредоточена на обучении небольшого количества сложных образцов, не отвлекаясь на большое количество простых образцов.

Кроме того, предлагается новая структура обнаружения на основе FPN, называемая RetinaNet.Эксперименты показывают, что она лучше, чем текущий лучший двухэтапный алгоритм обнаружения по точности и быстрее, чем одноэтапный алгоритм обнаружения.

Контакты:

Гитхаб:GitHub.com/CCC013/AI_Ah…

Знать столбец:Машинное обучение и компьютерное зрение,Бумажные заметки с искусственным интеллектом

1. Introduction

Текущий основной метод обнаружения целей делится на два этапа: двухэтапный и одноэтапный:

  • Двухэтапный подход заключается в создании разреженных блоков-кандидатов на первом этапе, а затем классификации этих блоков на втором этапе, чтобы определить, является ли это целевым объектом или фоном.Алгоритм двухэтапного обнаружения также является текущим алгоритмом обнаружения цели. с высочайшей точностью.
  • Одноэтапный метод обнаружения заключается в прямой обработке большого количества блоков-кандидатов, при этом обнаружение и классификация выполняются одновременно.Хотя скорость очень высока, точность по-прежнему составляет 10-40% по сравнению с двумя лучшими -этапный алгоритм;

Автор считает, что основная проблема одноэтапного алгоритма обнаружения заключается в том, что он не решает проблему дисбаланса классов:

  • Алгоритм двухэтапного обнаружения отфильтровывает большое количество фоновых выборок, когда блок-кандидат генерируется тем же методом, что и RPN на первом этапе (1:3), или интеллектуальный онлайн-анализ жестких примеров (OHEM) может поддерживать разумный класс соотношение;
  • Хотя алгоритм одноэтапного обнаружения также использует ту же стратегию выборки, из-за большого количества блоков-кандидатов (более 100 тыс.) эти стратегии будут очень неэффективными из-за большого количества фоновых выборок, которые легко классифицировать. также классическая проблема в обнаружении целей. , также есть некоторые решения, такие как бустэппинг или сложный анализ выборки;
  • Проблема дисбаланса классов существует как в одноэтапных, так и в двухэтапных алгоритмах обнаружения и приводит к двум проблемам:
    • Обучение неэффективно из-за большого количества легко классифицируемых отрицательных образцов (фон), поскольку эти образцы не дают эффективной информации;
    • Отличительные отрицательные образцы также разрушат обучение модели, что приведет к ее ухудшению;

Автор надеется объединить преимущества первого этапа и второго этапа, то есть быть быстрым и точным, поэтому предлагается новая функция потерь, называемая Focal Loss, функция которой заключается в динамической настройке размера функции перекрестной энтропии. , и установленный коэффициент масштабирования будет меняться в зависимости от того, легко ли различить образцы, как показано на следующем рисунке:

Интуитивно понятно, что этот коэффициент масштабирования автоматически уменьшает вес легко различимых выборок, позволяя модели сосредоточиться на обучении небольшого количества сложных выборок во время обучения.

Чтобы проверить эффективность этого метода, автор использует RPN в качестве магистральной сети и предлагает одноэтапную структуру обнаружения, которая называется RetinaNet. Экспериментальные результаты показаны на следующем рисунке. Результаты показывают, что RetinaNet может достичь баланс между скоростью и точностью.Это быстрее, чем двухэтапный алгоритм обнаружения и имеет лучшую точность, чем одноэтапный алгоритм обнаружения.

Кроме того, автор подчеркивает, что RetinaNet достигает таких результатов в основном за счет улучшения потерь, а в структуре сети нет никаких инноваций.

2. Focal Loss

Focal Loss — это функция потерь, предназначенная для устранения экстремального дисбаланса категорий в алгоритме одноэтапного обнаружения (например, соотношение положительных и отрицательных образцов до 1:1000) Это модификация стандартной кросс-энтропийной функции.

Во-первых, стандартная формула кросс-энтропийной функции выглядит следующим образом:

CE(p,y)=CE(pt)=log(pt)CE(p,y)=CE(p_t)=-log(p_t)

Где y представляет реальную метку выборки, вот пример бинарной классификации, поэтому значение y равно 1 или -1, а p - вероятность, предсказанная моделью, диапазон значений равен [0, 1], тогдаptp_tДа:

На рисунке 1 первого введения верхняя синяя кривая - это потеря функции кросс-энтропийных потерь перед лицом разных образцов.Видно, что даже образцы, которые очень легко отличить, а именноptp_tДля выборок, намного превышающих 0,5, потери, вычисленные по перекрестной энтропии, все еще очень велики.Если суммировать потери большого количества таких выборок, информация, предоставленная небольшим количеством сложных выборок, будет уничтожена.

2.1 Balanced Cross Entropy

Сбалансированная функция кросс-энтропии также была предложена ранее, а именно:

Здесь вводится весовой коэффициентα\alpha, что обратно пропорционально количеству категорий, то есть категория с меньшим количеством категорий имеет больший вес потерь. Это также основа нашего метода.

Однако проблема с этой функцией потерь заключается в том, что добавленный весовой коэффициент различает только положительные и отрицательные образцы, но не может различать образцы, которые легко классифицировать, и образцы, которые трудно классифицировать, поэтому в этой статье этот момент улучшается и предлагается фокусная потеря.

2.2 Focal Loss

Формула для расчета очаговых потерь выглядит следующим образом:

Вот гиперпараметрγ\gamma, который автор называет параметром фокусировки, в экспериментах настоящей статьиγ=2\gamma=2Эффект наилучший, и когда он равен 0, это стандартная кросс-энтропийная функция.

Есть две функции для Focal LOSS:

  1. Когда образец неправильно классифицируется, иptp_tВ очень молодом возрасте регулятор(1pt)γ(1-p_t)^\gammaблизко к 1, что мало влияет на потери, но какptp_tстремится к 1, этот коэффициент будет постепенно стремиться к 0, а потери хорошо классифицированных образцов также станут меньше для достижения эффекта снижения веса;
  2. Параметры фокусировкиγ\gammaОн будет плавно регулировать долю легко классифицируемых образцов, чтобы снизить веса;γ\gammaУвеличение может усиливать действие регуляторов, и эксперименты показали, чтоγ=2\gamma =2Интуитивно понятно, что поправочный коэффициент уменьшает вклад в потери легко классифицируемых образцов и расширяет диапазон образцов с низкими потерями.

В практических приложениях сбалансированная перекрестная энтропия будет комбинироваться, а полученные фокусные потери будут следующими, что позволяет не только регулировать вес положительных и отрицательных образцов, но и контролировать вес сложных и легко классифицируемых образцов:

Эксперименты показывают, что эту потерю можно сравнить, не добавляяα\alphaПотеря немного улучшает точность.

2.3 Class Imbalance and Model Initialization

В бинарной классификации все выходные вероятности бинарной классификации по умолчанию равны, но эта инициализация приведет к тому, что потеря большого количества категорий займет большую долю от общей потери, что повлияет на стабильность на ранней стадии обучение.

Для этой задачи автор оценивает модель для класса меньшинства (т.е. переднего плана) в начальном обучении.ppпредставилpriorконцепция и использованиечисло Пи\piВыразите его, а затем установите для него относительно небольшое значение.Эксперименты показывают, что независимо от того, используется ли перекрестная энтропия или потеря фокуса, этот подход может повысить стабильность обучения перед лицом серьезных проблем дисбаланса классов.

2.4 Class Imbalance and Two-stage Detectors

Алгоритмы двухэтапного обнаружения обычно используют стандартные функции кросс-энтропии и редко используют сбалансированную кросс-энтропию или фокальные потери.Они в основном полагаются на два механизма для решения проблем дисбаланса классов:

  1. Двухступенчатое последовательное соединение;
  2. Селективный отбор мини-пакетов

На первом этапе большое количество блоков-кандидатов будет уменьшено до 1-2к, причем не случайным образом, а может быть удалено большое количество отрицательных выборок, на втором этапе будет использован метод выборочной выборки для построения мини-выборок. партия, например, соотношение положительных и отрицательных образцов составляет 1:3, эффект от этого соотношения эквивалентен тому, что добавляется к сбалансированной перекрестной энтропииα\alphaпараметр.


3. RetinaNet Detector

Общая структура RetinaNet показана на следующем рисунке:

RetinaNet представляет собой одноэтапную структуру обнаружения, которая включает в себя магистральную сеть и две подсети для конкретных задач.Опорная сеть вычисляет свою карту характеристик для входного изображения, а затем две подсети выполняют классификацию и регрессию блоков-кандидатов соответственно на выход магистральной сети.

Магистральная сеть Pyramid Network

RetinaNet использует FPN в качестве магистральной сети. Структура FPN показана в ab на рисунке выше. Вот FPN на основе ResNet. Это сверточная нейронная сеть сверху вниз с боковыми соединениями. Когда на входе одно разрешение , он может получить черты различных масштабов.

В этой статье строится пирамида от P3 до P7, где l представляет собой уровень пирамиды,PlP_lРазрешение - это входное разрешение1/2l1/2^l, количество каналов для каждого уровня пирамиды C = 256.

Anchors

В этой статье используются трансляционно-инвариантные якорные блоки, каждый якорь имеет отдельный P3-P7 в пирамиде.32232^2прибыть5122512^2области, а соотношение сторон, установленное на каждом уровне пирамиды, равно {1:2, 1:1, 2:1} , а соответствующее масштабирование набора равно {20,21/3,22/32^0, 2^{1/3}, 2^{2/3}} , наконец, на каждом слое пирамиды генерируются привязки A=9, которые могут покрывать площадь 32~813 пикселей на соответствующем входном сетевом изображении.

Каждый якорь представляет собой однократный вектор из K целей классификации (K представляет количество категорий) и 4 целей регрессии. Способ, которым автор устанавливает привязку, заключается в том, что порог IoU (пересечения-по-объединению) кадра обнаружения реального объекта метки равен 0,5, а IoU фона равен [0, 0,4), и если он находится в [ 0.4, 0.5) обучение будет проигнорировано;

Целью Box-регрессии является вычисление смещения каждой привязки и назначенного ему поля объекта, которое игнорируется, если не установлено.

Подсеть классификации

Роль подсети классификации состоит в том, чтобы предсказать вероятность появления якорей A и категорий K объектов в каждом пространственном местоположении. Эта подсеть представляет собой небольшой FCN и подключена к каждому уровню FPN, а параметры подсети являются общими для всех уровней пирамиды.

Дизайн этой подсети относительно прост.Учитывая, что количество каналов в слое пирамиды является входной картой объектов C, она сначала пройдет через 4 ядра свертки как3×33\times 3, число сверточных слоев равно C и использует функцию активации ReLU, за которой также следует ядро ​​свертки.3×33\times3, но количествоK×AK\times AСверточный слой , а затем используйте сигмовидную функцию активации для вывода бинарных прогнозов KA для каждой пространственной позиции.В экспериментах в этой статье C = 256, A = 9.

По сравнению с сетью RPN здесь классификационная подсеть, используемая в этом документе, имеет больше уровней и использует только3×33\times 3Ядро свертки и не имеет общих параметров с подсетью блочной регрессии, описанной ниже,Это связано с тем, что авторы обнаружили, что проектные решения более высокого уровня могут быть более важными, чем конкретные значения гиперпараметров..

Подсеть регрессии коробки

Параллельно с подсетью классификации автор также использует небольшую сеть FCN, которая также подключена к каждому слою FPN, чтобы вернуть смещение каждого блока привязки к соседним реальным объектам метки.

С точки зрения конструкции сети, она аналогична классификационной подсети, за исключением того, что выход представляет собой линейный выход 4А. Для привязок A в каждой пространственной позиции эти 4 вывода предсказывают смещение между привязкой и кадром обнаружения реальной метки Кроме того, в отличие от большей части текущей работы, автор использует регрессор ограничительной рамки, не зависящий от класса, то есть вы можете использовать меньше параметров, но быть более эффективным.

Подсеть классификации и подсеть блока обнаружения регрессии имеют одну и ту же структуру сети, но соответственно используют разные параметры.

4. Эксперимент

Результаты эксперимента следующие:

а) Добавлены параметры, основанные на стандартных потерях перекрестной энтропииα\alphaрезультат, гдеα=0.5\alpha=0.5Это традиционная кросс-энтропия.Из таблицы видно, что эффект наилучший при 0,75, а АП увеличивается на 0,9;

б) сравнил разныеγ\gammaиα\alphaЭкспериментальные результаты , сγ\gammaувеличивается, увеличение AP становится более очевидным.γ=2\gamma =2когда это работает лучше всего;

c) Сравнивая влияние масштаба размера якоря и соотношения сторон на эффект, лучший результат получается при выборе 2 и 3 соответственно;

г) По сравнению с методом OHEM наилучший эффект OHEM здесь составляет AP = 32,8, а Focal Loss составляет AP = 36, что является улучшением на 3,2. Кроме того, OHEM1:3 здесь означает соотношение положительных и отрицательных образцов в минипартия, полученная OHEM, составляет 1:3, но такой подход не улучшает АП;

e) Сравнение AP и скорости при различной глубине модели сети и размерах входного изображения.

5. Заключение

Автор статьи считает, что фундаментальной причиной того, что одноэтапный алгоритм обнаружения не может превзойти по производительности двухэтапный алгоритм обнаружения, является крайний дисбаланс категорий, для решения этой проблемы предлагается фокусная потеря, модифицирующая стандартная кросс-энтропийная потеря, которую необходимо достичь. Сделайте сетевую модель более ориентированной на изучение сложных отрицательных выборок. Метод, описанный в этой статье, прост, но эффективен, и для проверки его эффективности разработана полностью сверточная одноэтапная структура обнаружения. Экспериментальные результаты также показывают, что он может достичь современной точности и скорости.