[Xiaobai изучает YOLO] Подробный анализ сетевой структуры YOLOv3

Нейронные сети
Резюме:В этой статье будет подробно представлена ​​структура сети Yolov3.

Структура сети Yolov3

В блоге "История развития и структура сети Yolo" мы подробно объяснили сетевую структуру Yolov1 и кратко упомянули об улучшении сетевой структуры Yolov2 и Yolov3. В этом блоге подробно представлена ​​сетевая структура Yolov3, и содержание относительно простое.

Схема структуры сети Yolov3

Как видно из рисунка, Yolov3 в основном состоит из следующих частей:

  • входить
  • Базовая сеть: Базовую сеть можно выбрать в соответствии с конкретными потребностями Автор использовал свой собственный дизайн в исходном тексте: Даркнет-53
  • Три ветки сети YOLOv3: Y1, Y2, Y3

Введение в сетевые компоненты

DBL: Как показано в левом нижнем углу рисунка 1, Darknetconv2d_BN_Leaky в коде является основным компонентом yolo_v3. Это свертка + BN + Leaky relu. Для v3 BN и дырявый relu уже являются неотделимыми частями от слоя свертки (кроме последнего слоя свертки), которые вместе составляют наименьшую компоненту.

resn: n представляет число, res1, res2, …, res8 и т. д., указывающее, сколько res_units содержится в этом res_block. Это большой компонент yolo_v3.yolo_v3 начал извлекать уроки из остаточной структуры ResNet.Использование этой структуры может сделать структуру сети более глубокой (от darknet-19 v2 до darknet-53 v3, первая не имеет остаточной структуры). Для пояснения res_block можно интуитивно увидеть в правом нижнем углу рисунка 1, что его базовыми компонентами также являются DBL.

concat: тензорная конкатенация. Объединение повышения частоты дискретизации промежуточного слоя даркнета и более позднего слоя. Операция сращивания отличается от операции добавления в остаточном слое.Сращивание расширит размерность тензора, в то время как добавление только добавляет напрямую и не изменяет размерность тензора.

Три филиала сети YOLOv3

Многомасштабное обнаружение — Y1

Применимая цель: большая цель

Путь: отмечен зеленой линией

Выходной размер: 13×13×255

Конкретное объяснение выходных размеров: 13×13: размер изображения; 255=(80+5)×3; 80: количество распознанных типов объектов; 5=x, y, w, h и c (достоверность); 3: каждая точка Предсказать 3 ограничивающих прямоугольника.

Многомасштабное обнаружение — Y2

Применимая цель: средняя цель

Путь: отмечен желтой линией

Выходной размер: 26×26×255

Конкретное объяснение выходных размеров: 26×26: размер изображения; 255=(80+5)×3; 80: количество распознанных типов объектов; 5=x, y, w, h и c (достоверность); 3: каждая точка Предсказать 3 ограничивающих прямоугольника.

Многомасштабное обнаружение — Y3

Применимая цель: маленькая цель

Путь: отмечен фиолетовой линией

Выходной размер: 52×52×255

Конкретное объяснение выходных размеров: 52×52: размер изображения; 255=(80+5)×3; 80: количество распознанных типов объектов; 5=x, y, w, h и c (достоверность); 3: каждая точка Предсказать 3 ограничивающих прямоугольника.


Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~