В этом году в компьютерном зрении: это самый полный технический отчет CV

искусственный интеллект компьютерное зрение
В этом году в компьютерном зрении: это самый полный технический отчет CV

Из танка М

Сборник "Сердце машины"

Участие: Цзян Сыюань, Лю Сяокунь

M Tank составил отчет «Год компьютерного зрения», в котором задокументированы результаты исследований в области компьютерного зрения с 2016 по 2017 год, редкий и подробный материал для разработчиков и исследователей. Материал состоит из четырех частей, в этой статье Сердце Машины собрало и представило первую часть, остальные части будут выпущены позже.

Каталог контента

Введение

первая часть

  • Классификация/местоположение
  • Обнаружение цели
  • отслеживание целей

Вторая часть

  • сегментация
  • Суперразрешение, передача стиля, затенение
  • Распознавание действий

третья часть

  • 3D цель
  • Оценка позы человека
  • 3D реконструкция
  • Другое Без категории 3D
  • Суммировать

четвертая часть

  • Сверточная архитектура
  • набор данных
  • Без рубрики Другие материалы и интересные тренды

в заключении

Полный адрес PDF:woohoo.them tank.org/PDF is/Год O…

Введение

Компьютерное зрение — это изучение способности машин видеть или позволять машинам визуализировать и анализировать окружающую среду и стимулы в ней. Машинное зрение обычно включает в себя оценку изображений или видео, и Британская ассоциация машинного зрения (BMVA) определяет машинное зрение как «автоматическое извлечение, анализ и понимание полезной информации из одного изображения или серии изображений».

Истинное понимание нашего окружения достигается не только за счет визуального представления. Точнее, это процесс, посредством которого зрительные сигналы передаются через зрительный нерв в первичную зрительную кору, а затем анализируются мозгом в четко охарактеризованной форме. Извлечение объяснений из этой сенсорной информации заключает в себе почти всю нашу естественную эволюцию и субъектный опыт того, как эволюция позволяет нам выживать и как мы познаем и понимаем мир на протяжении всей нашей жизни.

В этом отношении визуальный процесс — это просто процесс передачи изображений и их интерпретации, тогда как с вычислительной точки зрения изображения на самом деле ближе к мышлению или познанию, задействующему большое количество функций мозга. Поэтому из-за значительного междоменного характера многие люди считают, что компьютерное зрение — это реальное понимание визуальной среды и контекста внутри нее, что приведет нас к созданию сильного искусственного интеллекта.

Однако мы все еще находимся в зачаточном состоянии развития этой области. Цель этой статьи — рассказать о наиболее значительных достижениях в области компьютерного зрения в 2016–2017 годах и о том, как эти достижения способствовали практическому применению.

Для простоты этот пост будет ограничен базовыми определениями и многое опустит, особенно в отношении архитектур проектирования различных сверточных нейронных сетей.

Вот некоторые рекомендуемые учебные материалы, первые два подходят для начинающих, чтобы быстро заложить прочную основу, а последние два можно использовать в качестве углубленного обучения:

  • Андрей Карпати: «Что глубокая нейронная сеть думает о вашем #селфи», лучшая статья для понимания возможностей применения и дизайна CNN [4].
  • Quora: «что такое сверточная нейронная сеть?», объяснение понятное и понятное, особенно для новичков [5].
  • CS231n: Convolutional Neural Networks for Visual Recognition, курс Стэнфорда, отличный ресурс для углубленного изучения [6].
  • Глубокое обучение (Goodfellow, Bengio & Courville, 2016), эта книга содержит подробное объяснение функций CNN и дизайна архитектуры в главе 9, а в Интернете есть бесплатные ресурсы [7].

Для тех, кто хочет узнать больше о нейронных сетях и глубоком обучении, мы рекомендуем:

  • Нейронные сети и глубокое обучение (Nielsen, 2017), бесплатная онлайн-книга, которая дает читателям интуитивное представление о сложностях нейронных сетей и глубокого обучения. Даже простое прочтение главы 1 может помочь новичкам полностью понять эту статью.

Давайте сначала представим первую часть этой статьи, в которой в основном описываются очень простые и популярные задачи компьютерного зрения, такие как классификация и локализация объектов, обнаружение объектов и отслеживание объектов. Затем сердце машины поделится последними тремя частями обсуждения компьютерного зрения Бенджамином Ф. Даффи и Дэниелом Р. Флинном, включая вторую часть семантической сегментации, суперразрешения, передачи стиля и распознавания действий, а также третью часть. Распознавание и реконструкция 3D-объектов, а также четвертая часть архитектуры и набора данных сверточных сетей.

Основные задачи компьютерного зрения

Классификация/местоположение

Задачи классификации изображений обычно относятся к присвоению определенных меток всему изображению. Метка всего изображения слева внизу — CAT. И локализация относится к поиску положения, в котором цель распознавания появляется на изображении, обычно информация об этом положении будет представлена ​​некоторыми ограничивающими рамками вокруг объекта. Текущая точность классификации/локализации в ImageNet [9] превзошла набор обученных людей [10]. Поэтому, относительно основы предыдущей части, мы сосредоточимся на следующем содержании, таком как семантическая сегментация и трехмерная реконструкция.

Рисунок 1: Задачи компьютерного зрения из материалов курса cs231n.

Однако с увеличением целевых категорий [11] введение больших наборов данных предоставит новые показатели для недавнего прогресса исследований. В связи с этим основатель Keras [12] Франсуа Шолле применил архитектуру и новые технологии, включая Xception, к большому набору данных в Google, который содержит 17 000 целевых категорий и в общей сложности 350 миллионов (миллионов) изображений с несколькими категориями.

Рисунок 2: Годовой коэффициент ошибок при классификации/локализации в конкурсе ILSVRC, источник Jia Deng (2016), ILSVRC2016.

Основные моменты ImageNet LSVRC (2016):

  • Классификация сцен относится к классификации изображений с определенными сценами, такими как «оранжерея», «стадион» и «собор». В прошлом году ImageNet провела испытание по классификации сцен на основе поднабора данных Places2[15], который содержит 365 сцен с 8 миллионами обучающих изображений. Hikvision [16] выбрала глубокую сеть, подобную Inception, и не очень глубокую ResNet, и использовала их ансамбль для достижения 9% уровня ошибок в топ-5, чтобы выиграть соревнование.
  • Trimps-Soushen выиграла задачу классификации ImageNet с частотой ошибок классификации Top-5 2,99% и частотой ошибок локализации 7,71%. Команда использовала набор моделей классификации (т. е. усредненные результаты Inception, Inception-ResNet, ResNet и модуля Wide Residual Network [17]) и модель локализации на основе аннотаций Faster R-CNN [18] для выполнения задачи. . Набор обучающих данных содержит 1,2 миллиона изображений в 1000 категориях, а набор сплит-тестов также включает 100 000 тестовых изображений, которые не были просмотрены во время обучения.
  • ResNeXt от Facebook достигает уровня ошибок классификации 3,03%, используя новую архитектуру, расширенную по сравнению с оригинальной ResNet [19].

Обнаружение цели

Обнаружение объектов — это буквальное обнаружение объектов или целей, содержащихся в изображении. ILSVRC 2016 [20] определяет обнаружение объектов как вывод ограничивающих рамок и меток для одного объекта или объекта. В отличие от задач классификации/локализации, при обнаружении объектов методы классификации и локализации применяются к нескольким объектам на изображении, а не к одному основному объекту.

Рисунок 3: Обнаружение объектов только с одним классом лиц. На рисунке показан пример обнаружения лиц. Автор заявил, что проблема распознавания целей заключается в обнаружении небольших объектов. Обнаружение маленьких лиц на изображении помогает использовать масштабную инвариантность модели, разрешение изображения и возможности контекстного рассуждения. Источник Ху и Раманан (2016 г.) , стр. 1) [21].

Одной из главных тенденций в распознавании объектов в 2016 году стал переход на более быстрые и эффективные системы обнаружения. Это свойство заметно в методах YOLO, SSD и R-FCN, которые, как правило, разделяют вычисления по всему изображению. Таким образом, их можно отличить от более дорогостоящих методов подсети, таких как Fast / Faster R-CNN, которые являются более быстрыми и эффективными системами обнаружения, которые часто можно назвать «сквозным обучением или обучением».

Обоснование этого совместного вычисления часто состоит в том, чтобы избежать сосредоточения отдельных алгоритмов на их собственных подзадачах, поскольку это позволяет избежать увеличения времени обучения и снижения точности сети. То есть эта сквозная адаптивная сеть обычно возникает после инициализации решения подсети, поэтому это ретроспективная оптимизация (ретроспективная оптимизация). Однако методы Fast/Faster R-CNN по-прежнему очень эффективны и до сих пор широко используются для задач обнаружения объектов.

  • SSD: Single Shot MultiBox Detector [22] использует единую нейронную сеть, которая инкапсулирует все необходимые вычисления и устраняет дорогостоящую связь, чтобы достичь 75,1% mAP и превзойти более быстрые модели R-CNN (Liu et al. 2016).
  • Самой привлекательной системой, которую мы видели в 2016 году, была «YOLO9000: лучше, быстрее, сильнее» [23], в которой были представлены системы обнаружения YOLOv2 и YOLO9000 [24]. YOLOv2 значительно улучшает производительность модели YOLO [25], предложенной в 2015 году, которая обеспечивает лучшие результаты при очень высоком FPS (90 FPS на изображениях с низким разрешением с оригинальной GTX Titan X). Помимо скорости завершения, система превосходит Faster с ReNet и SSD на определенных наборах данных обнаружения объектов. RCNN.

YOLO9000 обеспечивает совместную тренировку обнаружения и классификации и расширяет свои возможности прогнозирующего обобщения до неизвестных данных обнаружения, т. е. он может обнаруживать ранее невиданные цели или объекты. Модель YOLO9000 обеспечивает обнаружение объектов в реальном времени в более чем 9000 категориях, устраняя разрыв между классификацией и наборами данных обнаружения. Для получения другой подробной информации о модели и предварительно обученных моделях см.:Семья Р Eddie.com/dark net/ йо....

  • Сети признаков-пирамид для обнаружения объектов [27] были предложены лабораторией FAIR [28] и используют «внутреннюю многомасштабную пирамидальную иерархию глубоких сверточных сетей для построения пирамид признаков с минимальными дополнительными затратами», что означает, что представление может быть мощнее и быстрее. Лин и др. (2016) достигли самых современных результатов с одной моделью на наборе данных COCO [29]. В сочетании с базовым Faster R-CNN превосходит лучшие результаты 2016 года.
  • R-FCN: Обнаружение объектов с помощью полностью сверточных сетей на основе регионов [30], который является еще одним методом, который позволяет избежать применения сотен дорогостоящих региональных подсетей к изображениям. Полная свертка и общие вычисления выполняются на изображении. «Наше время тестирования одного изображения составляет всего 170 мс, что в 2,5–20 раз быстрее, чем у Faster R-CNN» (Dai et al., 2016).

Рисунок 4: Компромиссы точности при обнаружении объектов, из Хуанг и др. (2016, стр. 9) [31].

Примечание. Ось Y представляет среднюю точность (mAP), ось X представляет различные средства извлечения признаков (VGG, MobileNet...Inception ResNet V2) различных метаархитектур. Кроме того, маленькие, средние и большие mAP представляют собой среднюю точность обнаружения малых, средних и крупных объектов соответственно. То есть точность зависит от «целевого размера, метаархитектуры и экстрактора признаков», а разрешение изображения фиксируется на уровне 300. Хотя Faster R-CNN работает лучше в приведенных выше примерах, это не имеет большого значения, поскольку эта метаархитектура намного медленнее, чем R-FCN.

В статье Хуанга и др. (2016) [32] представлено глубокое сравнение производительности R-FCN, SSD и Faster R-CNN. Из-за проблем со сравнением точности машинного обучения здесь используется стандартизированный метод. Эти архитектуры считаются метаархитектурами, поскольку они могут сочетать в себе различные экстракторы функций, такие как ResNet или Inception.

Авторы статьи исследуют компромисс между точностью и скоростью, варьируя метаархитектуру, средство извлечения признаков и разрешение изображения. Например, выбор различных экстракторов функций может вызвать очень большие изменения в контрасте метаархитектуры.

Коммерческие приложения в реальном времени требуют маломощных и высокоэффективных методов обнаружения объектов при сохранении точности, особенно для приложений автономного вождения.SqueezeDet [33] и PVANet [34] описывают эту тенденцию развития в статье.

COCO [36] — еще один широко используемый набор данных изображений. Однако он меньше по сравнению с ImageNet и чаще используется в качестве альтернативного набора данных. ImageNet фокусируется на распознавании объектов и имеет более широкий контекст понимания ситуации. Организаторы ежегодно проводят соревнование, которое включает в себя обнаружение объектов, сегментацию и маркировку ключевых точек. Результаты задачи обнаружения объектов на ILSVRC [37] и COCO [38] следующие:

  • ImageNet LSVRC Image Object Detection (DET): CUImage, средняя точность 66%, победа в 109 из 200 категорий.
  • Обнаружение видеообъектов ImageNet LSVRC (VID): средняя точность NUIST 80,8%.
  • Обнаружение объектов слежения за видео ImageNet LSVRC: CUvideo, средняя точность 55,8 %.
  • COCO 2016 Object Detection Challenge (Bounding Box): G-RMI (Google) Средняя точность 41,5% (на 4,2% абсолютных процентных пунктов выше, чем у победителя 2015 года MSRAVC).

Как видно из приведенных выше результатов, результаты ImageNet показывают, что «результаты MSRAVC 2015 установили высокую планку для «представления ResNet». Производительность обнаружения объектов улучшилась для всех категорий на протяжении всего проекта. В обоих случаях производительность задача локализации была значительно улучшена. Результаты значительного улучшения производительности небольших целевых экземпляров см. в справочнике» (ImageNet, 2016). [39]

Рисунок 5. Результаты обнаружения объектов изображения ILSVRC (2013-2016), источник ImageNet, 2016. [Онлайн] Workshop

отслеживание целей

Отслеживание объектов — это процесс отслеживания одного или нескольких конкретных объектов, представляющих интерес, в данной сцене. Существует множество приложений для взаимодействия с видео и реальным миром (обычно начиная с отслеживания первоначального обнаружения объекта), а также для автономного вождения. Это очень важно.

  • Полностью сверточные сиамские сети для отслеживания объектов[40], которые сочетают в себе сиамскую сеть с базовым алгоритмом отслеживания и используют сквозной метод обучения для достижения наилучшего результата, а скорость отображения кадров превышает скорость отображения в приложениях реального времени. , нужно. В этой статье для построения модели отслеживания используются традиционные методы онлайн-обучения.
  • Обучение отслеживанию со скоростью 100 кадров в секунду с помощью сетей глубокой регрессии [41], в этой статье делается попытка исправить недостатки методов онлайн-обучения. Они создали трекер, который использует сеть прямой связи для изучения универсальных взаимосвязей в движении, внешнем виде и ориентации объектов, что позволяет эффективно отслеживать новые объекты без онлайн-обучения. Алгоритм достигает самого современного уровня в стандартном тесте отслеживания при отслеживании всех объектов со скоростью 100 кадров в секунду (Held et al., 2016).
  • Функции Deep Motion для визуального отслеживания [43] сочетают в себе функции, разработанные вручную, функции глубокого внешнего вида (с использованием CNN) и функции глубокого движения (обученные на изображениях оптического потока) и достигают самых современных результатов. Хотя функции глубокого движения распространены в распознавании действий и классификации видео, авторы утверждают, что они впервые применяются для визуального отслеживания. Эта статья стала лучшей в номинации «Компьютерное зрение и зрение роботов» на ICPR2016.

"В этом документе показано влияние функций глубокого движения на системы обнаружения и отслеживания. Мы также дополнительно иллюстрируем, что созданные вручную функции, глубина RGB и функции приложения глубины содержат дополнительную информацию. Насколько нам известно, это первое. Мы предлагаем объединить информацию о внешнем виде и функции глубокого движения для изучения визуального отслеживания.Наши всесторонние эксперименты показывают, что метод слияния имеет особенности глубокого движения и превосходит методы, которые полагаются исключительно на информацию о внешнем виде».

  • Подход Virtual Worlds as Proxy for Multi-Object Tracking Analysis [44] решает проблему отсутствия реалистичных эталонных показателей отслеживания изменчивости видео и наборов данных в существующих виртуальных мирах. В документе представлен новый подход к воспроизведению в реальном мире, который создает насыщенные, виртуальные, синтетические и фотореалистичные среды с нуля. Кроме того, этот метод может восполнить нехватку контента в существующих наборах данных. Сгенерированные изображения автоматически аннотируются правильными наземными данными и позволяют использовать такие приложения, как оптический поток, для задач, отличных от обнаружения/отслеживания объектов.
  • Глобально оптимальное отслеживание объектов с помощью полностью сверточных сетей [45] фокусируется на изменчивости и окклюзии объектов как на двух фундаментальных ограничениях отслеживания объектов. «Предлагаемый нами метод устраняет изменения внешнего вида объектов или объектов с помощью полностью сверточных сетей, а также устраняет окклюзии с помощью динамического программирования» (Lee et al., 2016).

использованная литература:

[1] British Machine Vision Association (BMVA). 2016. What is computer vision? [Online] Available at: Woohoo.B MV ah.org/vision over V… [Accessed 21/12/2016]

[2] Krizhevsky, A., Sutskever, I. and Hinton, G. E. 2012. ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. Available: Woohoo. В это время. Торонто. Quota/~Bitter days/image…

[3] Kuhn, T. S. 1962. The Structure of Scientific Revolutions. 4th ed. United States: The University of Chicago Press.

[4] Karpathy, A. 2015. What a Deep Neural Network thinks about your #selfie. [Blog] Andrej Karpathy Blog. Available: Карточные люди боятся ее беременности.GitHub.IO/2015/10/25/… [Accessed: 21/12/2016]

[5] Quora. 2016. What is a convolutional neural network? [Online] Available: Woohoo Quora.com/what-is-ah-ah-from… [Accessed: 21/12/2016]

[6] Stanford University. 2016. Convolutional Neural Networks for Visual Recognition. [Online] CS231n. Available: cs231n.stanford.edu/ [Accessed 21/12/2016]

[7] Goodfellow et al. 2016. Deep Learning. MIT Press. [Online] www.deeplearningbook.org/ [Accessed: 21/12/2016] Note: Chapter 9, Convolutional Networks [Available: Woohoo.deep Learning book.org/contents/co…]

[8] Nielsen, M. 2017. Neural Networks and Deep Learning. [Online] EBook. Available: neuralnetworksanddeeplearning.com/index.html [Accessed: 06/03/2017].

[9] ImageNet refers to a popular image dataset for Computer Vision. Each year entrants compete in a series of different tasks called the ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Available: image-net.org/challenges/…

[10] См. «Что я узнал, соревнуясь с ConvNet в ImageNet» Андрея Карпати. В сообщении в блоге подробно описывается путь автора к созданию человеческого эталона для набора данных ILSVRC 2014. Уровень ошибок составил примерно 5,1% по сравнению с тогдашним состоянием. ультрасовременный Ошибка классификации GoogLeNet 6,8%.Карточные люди боятся ее беременности.GitHub.IO/2014/09/02/…

[11] See new datasets later in this piece.

[12] Keras is a popular neural network-based deep learning library: keras.io/

[13] Chollet, F. 2016. Information-theoretical label embeddings for large-scale image classification. [Online] arXiv: 1607.05691. Available: arXiv:1607.05691v1

[14] Chollet, F. 2016. Xception: Deep Learning with Depthwise Separable Convolutions. [Online] arXiv:1610.02357. Available: arXiv:1610.02357v2

[15] Places2 dataset, details available: places2.csail.mit.edu/. See also new datasets section.

[16] Hikvision. 2016. Hikvision ranked No.1 in Scene Classification at ImageNet 2016 challenge. [Online] Security News Desk. Available: Woohoo.SK.com/Hikangvision дня новостей безопасности… [Accessed: 20/03/2017].

[17] See Residual Networks in Part Four of this publication for more details.

[18] Details available under team information Trimps-Soushen from: image-net.org/challenges/…

[19] Xie, S., Girshick, R., Dollar, P., Tu, Z. & He, K. 2016. Aggregated Residual Transformations for Deep Neural Networks. [Online] arXiv: 1611.05431. Available: arXiv:1611.05431v1

[20] ImageNet Large Scale Visual Recognition Challenge (2016), Part II, Available: image-net.org/challenges/… [Accessed: 22/11/2016]

[21] Hu and Ramanan. 2016. Finding Tiny Faces. [Online] arXiv: 1612.04402. Available: arXiv:1612.04402v1

[22] Liu et al. 2016. SSD: Single Shot MultiBox Detector. [Online] arXiv: 1512.02325v5. Available: arXiv:1512.02325v5

[23] Redmon, J. Farhadi, A. 2016. YOLO9000: Better, Faster, Stronger. [Online] arXiv: 1612.08242v1. Available: arXiv:1612.08242v1

[24] YOLO расшифровывается как «You Only Look Once».

[25] Redmon et al. 2016. You Only Look Once: Unified, Real-Time Object Detection. [Online] arXiv: 1506.02640. Available: arXiv:1506.02640v5

[26]Redmon. 2017. YOLO: Real-Time Object Detection. [Website] pjreddie.com. Available: Семья Р Eddie.com/dark net/ йо... [Accessed: 01/03/2017].

[27] Lin et al. 2016. Feature Pyramid Networks for Object Detection. [Online] arXiv: 1612.03144. Available: arXiv:1612.03144v1

[28] Facebook's Artificial Intelligence Research

[29] Common Objects in Context (COCO) image dataset

[30] Dai et al. 2016. R-FCN: Object Detection via Region-based Fully Convolutional Networks. [Online] arXiv: 1605.06409. Available: arXiv:1605.06409v2

[31] Huang et al. 2016. Speed/accuracy trade-offs for modern convolutional object detectors. [Online] arXiv: 1611.10012. Available: arXiv:1611.10012v1

[32] ibid

[33] Wu et al. 2016. SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving. [Online] arXiv: 1612.01051. Available: arXiv:1612.01051v2

[34] Hong et al. 2016. PVANet: Lightweight Deep Neural Networks for Real-time Object Detection. [Online] arXiv: 1611.08588v2. Available: arXiv:1611.08588v2

[35] DeepGlint Official. 2016. DeepGlint CVPR2016. [Online] Youtube.com. Available: woohoo.YouTube.com/watch?V=Расходные материалы… [Accessed: 01/03/2017].

[36] COCO - Common Objects in Common. 2016. [Website] Available: mscoco.org/ [Accessed: 04/01/2017].

[37] ILSRVC results taken from: ImageNet. 2016. Large Scale Visual Recognition Challenge 2016.

[Website] Object Detection. Available: image-net.org/challenges/… [Accessed: 04/01/2017].

[38] COCO Detection Challenge results taken from: COCO - Common Objects in Common. 2016. Detections Leaderboard [Website] mscoco.org. Available: мс coco.org/DataSet/#… [Accessed: 05/01/2017].

[39] ImageNet. 2016. [Online] Workshop Presentation, Slide 31. Available: image-net.org/challenges/… [Accessed: 06/01/2017].

[40] Bertinetto et al. 2016. Fully-Convolutional Siamese Networks for Object Tracking. [Online] arXiv: 1606.09549. Available: АР Вест V.org/ABS/1606.09…

[41] Held et al. 2016. Learning to Track at 100 FPS with Deep Regression Networks. [Online] arXiv: 1604.01802. Available: АР Вест V.org/ABS/1604.01…

[42] David Held. 2016. GOTURN - a neural network tracker. [Online] YouTube.com. Available: Уууу. YouTube.com/watch?V=км позже… [Accessed: 03/03/2017].

[43] Gladh et al. 2016. Deep Motion Features for Visual Tracking. [Online] arXiv: 1612.06615. Available: arXiv:1612.06615v1

[44] Gaidon et al. 2016. Virtual Worlds as Proxy for Multi-Object Tracking Analysis. [Online] arXiv: 1605.06457. Available: arXiv:1605.06457v1

[45] Lee et al. 2016. Globally Optimal Object Tracking with Fully Convolutional Networks. [Online] arXiv: 1612.08274. Available: arXiv:1612.08274v1

Оригинальный отчетный адрес:woohoo.them tank.org/ah-year-in-from…

Эта статья составлена ​​для ядра машины, пожалуйста, свяжитесь с этой общедоступной учетной записью для разрешения на перепечатку.