YOLO v1
Опубликовано в CVPR в 2016 г.,Ввод изображения, до 45 кадров в секунду, 63,4 мАп, хуже, чем SSD, быстрее, но менее точно, чем Faster R-CNN
идеи эссе
- разделить изображение наЯчейка сетки, если центр объекта попадает в эту сетку, сетка отвечает за предсказание объекта
- Каждая сетка должна предсказывать оценки ограничительных рамок B и категорий C. Помимо предсказания положения, каждая ограничительная рамка также должна предсказывать значение достоверности.
сетевая структура
функция потерь
ограниченное
- Эффект группового обнаружения малых целей плохой
- Размер цели влияет на результаты обнаружения
- Неточное позиционирование
YOLO v2
Опубликовано в CVPR в 2017 году с использованием Darknet-19 в качестве основы.
различные попытки
- Batch Normalization. Способен упорядочить модель и избежать переобучения.Со слоем BN можно убрать операцию отсева, а mAP увеличить на 2%
- классификатор высокого разрешения. Размер входного изображения, увеличивая mAP на 4%
- Anchor Boxes. Использование смещения Anchor Boxes вместо прямого позиционирования, такого как YOLO v1, может упростить задачу прогнозирования целевой ограничивающей рамки и облегчить обучение сети. По сравнению с неиспользованием Anchor Boxes, mAP немного ниже, но скорость отзыва может быть улучшена на 7%.
- Dimension Cluster. Используйте кластеризацию k-средних, чтобы автоматически находить подходящие приоритеты на основе ограничивающих рамок обучающего набора.
- Direct location prediction. Ограничьте диапазон координат прогнозируемой целевой центральной точки, чтобы сделать обучение сети более стабильным.
- Fine-Grained Feature. Интегрируйте высокоразмерные и низкоразмерные матрицы признаков с помощью PassThrough Layer, чтобы улучшить способность обнаруживать небольшие цели.
- многоуровневое обучение. Улучшить надежность
сетевая структура
YOLO v3
Выпущено в CVPR в 2018 году с использованием Darknet-53 в качестве основы, с использованиемСверточный слой с шагом ядра 2 заменяет слой объединения с понижающей дискретизацией.
сетевая структура
Предсказание ограничивающей рамки объекта
Сопоставление положительных и отрицательных образцов
Выберите ящик с наибольшим IoU в качестве положительного образца и отбросьте ящик, чей IoU превышает 0,5, но не является самым большим.
Расчет убытков
YOLO v3 SPP
Улучшение мозаичного изображения
Сшить 4 изображения в 1 изображение в качестве обучающего образца
- Увеличьте разнообразие данных
- Увеличьте количество целей
- БН может считать параметры нескольких картинок одновременно
SPP-модуль
Реализовано слияние функций в разных масштабах.
сетевая структура
Возвратные потери позиционирования
IoU Loss
преимущество:
- Может лучше отражать степень совпадения
- масштабный инвариант
недостаток:
- потеря равна 0 при непересекающихся?
GIoU Loss
взаиПлощадь описанного прямоугольника,заиобъединенная площадь
DIoU Loss
иНедостатки:
- медленная сходимость
- Регрессия недостаточно точна
Потеря DIoU может напрямую минимизировать расстояние между двумя блоками, поэтому они сходятся быстрее
CIoU Loss
Хорошая локализация потери регрессии должна учитывать 3 геометрических параметра:
- Перекрывающаяся область
- Расстояние до центральной точки
- Соотношение сторон
Focal Loss
Одноэтапная модель сети, положительные и отрицательные образцы несбалансированы
Больше внимания уделяйте твердым образцам