Резюме
Мы предлагаем метод обнаружения объектов на изображениях с помощью одной глубокой нейронной сети. Наш метод, названный SSD, дискретизирует выходное пространство ограничивающих рамок в набор рамок по умолчанию с различными соотношениями сторон и масштабирует расположение каждой карты объектов. Во время прогнозирования сеть генерирует баллы для появления каждого класса объектов в каждом поле по умолчанию и корректирует поля, чтобы они лучше соответствовали форме объекта. Кроме того, сеть включает в себя прогнозы из нескольких карт объектов с разным разрешением, естественным образом обрабатывая объекты разных размеров. По сравнению с методами, требующими целевых предложений, SSD очень прост, поскольку он полностью исключает создание предложений и последующие этапы передискретизации пикселей или признаков и инкапсулирует все вычисления в единую сеть. Это позволяет легко обучать SSD и напрямую интегрировать их в системы, которым требуются компоненты обнаружения. Экспериментальные результаты на наборах данных PASCAL VOC, COCO и ILSVRC подтверждают, что SSD конкурентоспособен по точности и скорости для методов, использующих дополнительный шаг объект-предложение, обеспечивая при этом унифицированную основу для обучения и вывода. Для ввода 300×300 SSD достигает 74,3% mAP на Nvidia Titan X при 59FPS в тесте VOC2007, а для ввода 512×512 SSD достигает 76,9% mAP, превосходя эталонную современную модель Faster R-CNN. По сравнению с другими одноэтапными методами SSD обеспечивает более высокую точность даже при меньшем размере входного изображения. Код для получения: