Углубленное компьютерное зрение (1)

В этой статье представлены базовые знания о компьютерном зрении на примерах, а также анализируется прогресс и применение классификации изображений и сегментации изображений в ее основных задачах.
Обзор исторической статьи:Подробное объяснение репликации HBase

предисловие

Начнем с нескольких случаев применения компьютерного зрения:

С 6 по 8 июня в рамках 23-го Петербургского международного экономического форума информационное агентство Синьхуа, российское ТАСС и Sogou совместно запустили первый в мире русскоязычный синтетический якорь с искусственным интеллектом, который в дальнейшем будет использоваться в новостных сводках ТАСС. ТАСС — национальное информационное агентство России, входящее в пятерку ведущих информационных агентств мира, предоставляет новостную информацию в 115 стран и регионов и имеет широкое глобальное влияние.

Интеллектуальная платформа для производства короткометражных видео MAGIC разработана компанией Xinhua Zhiyun Technology Co., Ltd., созданной совместно новостным агентством Синьхуа и Alibaba. Во время чемпионата мира количество коротких видеороликов, созданных MAGIC, достигло 37 581, а средняя продолжительность видео составила 50,7 секунды, а вся сеть набрала 116 604 975 просмотров! Среди них видео «Россия ведет Египет 2:0» с высокой скоростью производства заняло всего 6 секунд!

Лица выше — это поддельные лица, сгенерированные ИИ. Этих людей не существует. Это данные, сгенерированные NVIDIA с использованием модели GAN (генерирующая сеть противостояния).

Компьютерное зрение

Цель исследования компьютерного зрения состоит в том, чтобы позволить компьютерным программам интерпретировать и понимать изображения не только для понимания цвета изображения, но и для понимания семантики и особенностей изображения на более высоком уровне. 70% деятельности коры головного мозга человека приходится на обработку зрительной информации, поэтому с точки зрения восприятия зрение является важной функцией восприятия информации.

Несколько вещей способствовали развитию зрения:

1. Прорыв в области глубокого обучения.Глубокое обучение построено на нейронной сети, а концепция нейронной сети родилась в результате исследований и моделирования нервной системы человеческого мозга, проведенных исследователями в 1950-х годах. Теория нейронных сетей существовала в 1950-х годах, но она находилась в состоянии поверхностного применения, и люди не задумывались о том, какие новые изменения привнесет многослойность.

2. NVIDIA разработала графический процессор, который постоянно совершенствовал свою вычислительную мощность.Благодаря своим естественным возможностям параллельных вычислений и матричной обработки он значительно ускорил процесс обработки изображений и вычислительный процесс нейронных сетей. Если в 2012 году для обучения модели AlexNet требовалось два графических процессора, что занимало 6 дней, то сегодня для того же самого требуется новый графический процессор, который можно сделать за десять минут.

3. Ли Фейфэй, профессор Стэнфордского университета, создала ImageNet, разместила миллионы фотографий в Интернете и мобилизовала массы, чтобы отметить их. Что действительно привлекло всеобщее внимание, так это Стэнфордский эксперимент 2012 г. Раньше количество образцов изображений в эксперименте было в основном на уровне «10 000». Стэнфорд использовал 10 миллионов, чтобы сделать это с помощью многослойной нейронной сети. три категории изображений, скорость распознавания этой модели улучшилась примерно на 7%-10%. Это большой шок для всех, потому что обычно требуется много усилий, чтобы увеличить скорость распознавания на 1%. Теперь мы просто увеличиваем количество слоев, и есть два основных изменения. Первое — скорость распознавания увеличилась, поэтому много; во-вторых, он может обрабатывать такие большие данные. Эти два изменения очень радуют всех, не говоря уже о том, что до 2012 года искусственный интеллект не решал практических задач. В декабре 2015 года Microsoft снизила уровень ошибок распознавания изображений в ImageNet до 3,57% с помощью 152-уровневой глубокой сети, что ниже уровня человеческих ошибок, составляющего 5,1%.

На следующем рисунке показан ход классификации изображений в ImageNet.Чем ниже гистограмма, тем ниже частота ошибок:

Глубокое обучение

Сейчас мы переживаем третий подъем искусственного интеллекта. Первые две волны пришлись на 1950-1960-е и 1980-1990-е годы, и обе имели значительное влияние в то время, но также медленно остывали. Это связано с тем, что нейронные сети того времени не достигли должного прироста производительности и не помогли нам понять биологические зрительные системы. Третья волна с начала 21 века по настоящее время, на этот раз отличается от двух предыдущих тем, что глубокое обучение значительно превзошло возможности биологии во многих контрольных тестах и реальных приложениях.

Глубокое обучение обычно относится к глубоким нейронным сетям, также известным как DNN (Глубокие нейронные сети).Нейронные сети были предложены в 1950-х годах, но из-за исчезновения присущих им градиентов большое количество параметров приводит к переоснащению и вычислительной сложности. большие и другие проблемы привели к тому, что фактический эффект приложения был плохим. Поэтому машинное обучение почти всегда доминировало в SVM.

Глубокое обучение было предложено Хинтоном и соавторами в 2006 г., но его реальный рост или появление важных работ произошло после 2012 г. Например, Крижевский и другие использовали глубокое обучение для значительного повышения точности классификации изображений. работа Алекса Нетта.

Технология применения глубокого обучения в области изображений — это, в основном, сверточная нейронная сеть (CNN). Причина, по которой CNN очень успешна в приложениях компьютерного зрения, заключается в том, что традиционные методы машинного обучения в основном заброшены. Одна из главных причин заключается в том, что проектирование признаков данных изображения, то есть описание признаков, всегда было головной болью для компьютерного зрения.Более чем за 10 лет до прорыва в области глубокого обучения ) — это SIFT и знаменитый BOW (мешок визуальных слов), они разрабатывались в течение длительного времени и требуют очень профессиональных знаний в предметной области.Эти дорогостоящие итерации модели сделали разработку визуальных алгоритмов в прошлом очень медленной. Вы можете обратиться к следующей блок-схеме, которая представляет собой традиционный процесс машинного обучения:

Популярные области применения глубокого обучения см. на следующем рисунке (согласно статистическим результатам paperswithcode в 2018 г.)

Области, в которых глубокое обучение сейчас должно быть более успешным, — это компьютерное зрение, распознавание речи и самостоятельная обработка языка.С успехом AlphaGo и OpenAI также постепенно появляется обучение с подкреплением.

основная задача

Область компьютерного зрения включает в себя множество задач, но основными задачами являются классификация изображений, обнаружение/локализация изображений, определение местоположения ключевых точек изображения, сегментация изображений. поля (такие как человеческое лицо. Развитие распознавания, OCR), ниже приводится краткое введение в новый прогресс каждой задачи.

Достижения в классификации изображений

Классификация изображений означает, что при заданном входном изображении оценка категории изображения принадлежит к. С точки зрения непрофессионала, это позволяет машине понять, что представляет собой изображение или что на нем есть (кошки, собаки и т. д.). Классификация изображений — фундаментальная задача компьютерного зрения, с которой сравниваются почти все эталонные модели. От относительно простой задачи распознавания рукописных цифр изображения в градациях серого с 10 классами mnist до более крупных задач с 10 классами cifar10 и 100 классов cifar100 и более поздней задачи imagenet модель классификации изображений сопровождается ростом набора данных. шаг за шагом он поднялся до сегодняшнего уровня. Теперь, в наборах данных imagenet с более чем 10 миллионами изображений и более чем 20 000 категорий, уровень классификации изображений компьютерами превзошел человеческий.

В соответствии с различным содержанием изображения его можно разделить на классификацию объектов, классификацию сцен и классификацию событий поведения.

По тонкости классификации ее можно разделить на крупнозернистую классификацию и мелкозернистую классификацию.

По соотношению меток классификации ее можно разделить на классификацию с одной меткой и классификацию с несколькими метками.

Трудности и проблемы классификации изображений: изменения в твердых и нежестких телах, многоракурсность, масштаб, окклюзия, условия освещения, внутриклассовые различия относятся к следующему рисунку:

Классификация по одной метке

Классификация по одной метке — это простая задача классификации, а содержимое изображения относительно простое, оно содержит только один объект или сцену. ImageNet относится к набору данных однокомпонентной классификации. Ниже приводится введение в процесс классификации меток заказов во временном контексте конкурса ImageNet.

АлексНет:Модель структуры сети AlexNet, предложенная в 2012 году, взорвала применение нейронных сетей и выиграла чемпионат конкурса по распознаванию изображений 2012 года, сделав CNN основной моделью алгоритма в классификации изображений.

ZFNet:Сеть чемпионов по классификации ILSVRC 2013 года — Clarifai, но она более известна как ZFNet. Студенты Хинтона Зейлер и Фергус представили визуализацию нейронных сетей с использованием методов деконволюции в своих исследованиях, визуализируя промежуточные слои признаков сети, что позволило исследователям изучить активацию различных признаков и их связь с входным пространством. Под этим руководством в сеть AlexNet были внесены простые улучшения, включая использование ядра свертки и шага меньшего размера, изменение ядра свертки 11x11 на ядро свертки 7x7, изменение шага с 4 на 2, и производительность превышает исходную сеть AlexNet.

VGGNet:Сеть VGGNet, занявшая второе место в 2014 году, включает две версии, 16-уровневую и 19-уровневую, с общим числом параметров около 550 млн. Все используют ядра свертки 3×3 и большие ядра объединения 2×2, что упрощает структуру сверточной нейронной сети. VGGNet прекрасно показывает, как можно повысить производительность сети, просто увеличив количество и глубину сети на основе предыдущей сетевой архитектуры. Несмотря на простоту, она чрезвычайно эффективна.Сегодня VGGNet по-прежнему выбирается в качестве эталонной модели для многих задач.

ГугЛеНет:22-уровневая сеть, предложенная Кристианом Сегеди и др. из Google, имеет коэффициент ошибок классификации топ-5 всего 6,7%. Ядром GoogleNet является начальный модуль, в котором используется параллельный подход. Классическая начальная структура состоит из четырех компонентов. Свертка 1 × 1, свертка 3 × 3, свертка 5 × 5, большой пул 3 × 3, а затем комбинация результатов работы четырех компонентов на канале. Это основная идея начального модуля. Информация о различных масштабах изображения извлекается несколькими ядрами свертки, а затем объединяется для получения лучшего представления изображения. С тех пор точность классификации моделей глубокого обучения достигла человеческого уровня (5–10%).

Ренет:В 2015 году он стал чемпионом по классификационным задачам. Он превзошел распознавание человека с частотой ошибок 3,57% и установил новый рекорд модели со 152-уровневой сетевой архитектурой. Поскольку ResNet использует межуровневое соединение, оно успешно решает проблему рассеяния градиента в глубоких нейронных сетях и предоставляет возможность обучения сети на тысячах уровней.

ResNeXон:В 2016 году еще родились многие классические модели, в том числе ResNeXt, который занял второе место в конкурсе классификации.101-слойный ResNeXt может достичь точности ResNet152, но его сложность составляет лишь половину последней.Основная идея - группировка свертка. То есть входные каналы сначала группируются, подвергаются нелинейному преобразованию нескольких параллельных ветвей, а затем объединяются.

Плотная сеть:Основанный на ResNet, плотно связанный DenseNet соединяет каждый уровень с другими уровнями в процессе прямой связи. Для каждого слоя сети в качестве входных данных используются карты объектов всех предыдущих сетей, а их карты объектов также используются в качестве входных данных для последующих слоев сети. Плотное соединение в DenseNet также может облегчить проблему исчезновения градиента, и в то же время, по сравнению с ResNet, оно может усилить распространение и повторное использование функций, а также уменьшить количество параметров. По сравнению с ResNet, DenseNet требует меньше памяти и вычислительных ресурсов и обеспечивает более высокую производительность.

Сенет:2017 год также был годом после конкурса классификации изображений ILSVRC, и SeNet выиграла чемпионат. Эта структура использует только стратегию «повторной калибровки функций» для обработки функций, получает важность каждого канала функций путем обучения и уменьшает или увеличивает вес соответствующего канала функций в соответствии с важностью.

На этом соревнование по классификации изображений в основном закончилось, и оно также близко к пределу возможностей алгоритма. Однако в практических приложениях он сталкивается с более сложными и реальными задачами, чем на соревнованиях, и каждому необходимо накапливать опыт.

В настоящее время, с появлением NASNet (поисковой сети с нейронной архитектурой), хорошие результаты в основном дают такие сети, как: NASNet, PNasNet, AmoebaNet, особенно EfficientNet, недавно выпущенный Google, который является постоянным улучшением других сетей. следующая картина ясна с первого взгляда:

Детальная классификация изображений

Мелкозернистая классификация изображений (Fine-Grained Image Categorization) заключается в выполнении более детального деления на подкатегории изображений, принадлежащих к одной базовой категории (автомобили, собаки, цветы, птицы и т. д.) (например: различать вид собаки , самоед или хаски). Существует множество практических сценариев применения мелкозернистой классификации, например, различение различных моделей транспортных средств при мониторинге дорожного движения.

Из-за малой детализации классификации различия между подклассами малозаметны, только небольшая разница в определенной части (например, в глазах собаки), и даже в некоторых категориях ее трудно различить даже специалистам, плюс есть огромные различия внутри подклассов, такие как разница, вызванная позой и фоном, а также помехи от перспективы, фона, окклюзии и т. д., поэтому мелкозернистая классификация изображений сложнее, чем крупнозернистая классификация, поэтому она все еще относительно популярная область исследований.

Поскольку глубокие сверточные сети могут изучать очень надежные представления признаков изображения, большинство методов мелкозернистой классификации изображений основаны на глубоких сверточных сетях.Эти методы можно условно разделить на следующие четыре направления:

1. Метод тонкой настройки на основе традиционной сети классификации изображений.

Большинство этих методов напрямую используют общие глубокие сверточные сети для непосредственного выполнения мелкозернистой классификации изображений, такие как ResNet, DenseNet, SENet и т. д. Поскольку эти классификационные сети обладают широкими возможностями представления признаков, они могут достигать лучших результатов в традиционной классификации изображений. Однако в мелкозернистой классификации различия между разными видами на самом деле очень тонкие, поэтому не идеально напрямую использовать обычные сети классификации изображений для классификации мелкозернистых изображений. Вдохновленный теорией трансфертного обучения, один из подходов заключается в переносе сетей, обученных на крупномасштабных данных, на задачи мелкозернистой классификации и распознавания. Распространенным решением является использование весов сети, предварительно обученных в ImageNet, в качестве начальных весов, а затем точная настройка весов сети в наборе данных мелкозернистой классификации (FineTune) для получения окончательной сети классификации.

2. На основе метода, основанного на сетевой интеграции

Более представительным является модель билинейной сверточной нейронной сети (Билинейная CNN), Этот метод использует две сети VGG-D и VGG-M в качестве эталонной сети и получает два вектора слияния признаков через билинейный пул, а затем использует их для классификации. Без использования аннотаций Bounding Box точность классификации 84,1 % была достигнута в наборе данных CUB200-2011, при использовании

При использовании BoundingBox точность классификации достигает 85,1%.

3. Метод, основанный на обнаружении целевого блока (обнаружение части) и выравнивании (выравнивании)

Идея метода, основанного на обнаружении частей объекта, состоит в том, чтобы сначала определить положение цели на изображении, а затем определить положение дискриминационной области в цели, а затем объединить изображение цели (то есть передний план ) и дискриминационная область Блоки целевой области одновременно подаются в глубокую сверточную сеть для классификации. Однако метод, основанный на обнаружении целевого блока, часто требует использования аннотационной информации о ограничивающей рамке цели в процессе обучения и даже информации о ключевых характерных точках на целевом изображении.В практических приложениях очень сложно получить эту аннотационную информацию. трудный. Более представительным является метод Part-RCNN, предложенный в ECCV в 2014 году.

4. Методы, основанные на зрительном внимании

Механизм зрительного внимания — это уникальный механизм обработки сигналов человеческого зрения. Конкретная производительность заключается в том, что когда зрительная система смотрит на что-то, она сначала получает целевую область, требующую внимания, путем быстрого сканирования глобального изображения, а затем подавляет другую бесполезную информацию, чтобы получить интересующую цель. В глубокой сверточной сети модель внимания также может использоваться для поиска области интереса или области различения на изображении, и для разных задач область интереса, на которую обращает внимание сверточная сеть, отличается. Поскольку метод, основанный на модели зрительного внимания, может обнаруживать различимые области на изображении без дополнительной аннотационной информации (такой как кадр аннотации целевого положения и аннотационная информация о положении важных компонентов), он широко используется в последние годы. широко используется в области мелкозернистой классификации изображений. Репрезентативной работой является сверточная нейронная сеть с повторяющимся вниманием (RA-CNN), предложенная в CVPR в 2017 году.

В настоящее время для всех задач по распознаванию изображений требуется большое количество или даже большое количество аннотированных данных. Для мелкозернистых изображений стоимость сбора изображений и аннотаций огромна. Это ограничивает развитие детальных исследований и их применение в реальных сценариях. В отличие от людей, у нас есть возможность изучать новые понятия с очень небольшим количеством контролируемой информации, например, средний взрослый человек может научиться распознавать новый вид птиц с помощью всего нескольких изображений. Чтобы позволить модели распознавания изображений с высокой степенью детализации иметь способность к обучению с небольшим количеством обучающих выборок, таких как люди, исследователи также изучают задачу обучения с небольшой выборкой для распознавания изображений с высокой степенью детализации, которая также может стать будущим развитием. тенденция.

Многоуровневая классификация

Упомянутые выше классификации представляют собой проблемы классификации с одной меткой, то есть каждое изображение соответствует только одной категории, и многие задачи на самом деле представляют собой проблемы классификации с несколькими метками.Одно изображение может соответствовать нескольким меткам по сравнению с изображениями с несколькими категориями. , задача с несколькими метками сложнее, потому что ее выходное пространство экспоненциально растет с количеством категорий. Проблемы классификации с несколькими метками обычно имеют следующие стратегии: Стратегия первого порядка: наивный метод, игнорирующий корреляцию с другими метками, рассмотрение каждой цели отдельно, например, разложение нескольких меток на несколько независимых задач бинарной классификации (простой и эффективный).

Стратегия второго порядка: рассмотрите попарные ассоциации между метками, такие как ранжирование релевантных и нерелевантных меток.

Стратегия более высокого порядка: учитывайте связь между несколькими метками, например, учитывайте влияние всех других меток на каждую метку (эффект отличный).

Немного расширяясь и говоря о стратегиях высокого уровня: поскольку многие объекты в реальном мире обычно появляются одновременно, моделирование корреляции между метками стало ключом к распознаванию изображений с несколькими метками, как показано на следующем рисунке:

Как правило, есть два направления, которые могут моделировать корреляцию между метками с разных точек зрения. Один основан на вероятностных графических моделях или рекуррентных нейронных сетях (RNN), которые явно моделируют зависимости меток. Другой заключается в неявном моделировании корреляций меток с помощью механизма внимания. Этот метод рассматривает взаимосвязь между областями внимания на изображении (может рассматриваться как локальная корреляция). Но даже в этом случае метод игнорирует глобальную корреляцию между метками на изображении (глобальную корреляцию необходимо вывести из знаний за пределами одного изображения).

Например: ML-GCN использует график (Graph) для моделирования взаимозависимости между метками. Он может гибко получать топологию в пространстве меток и добился некоторых результатов как на тестовых наборах MS-COCO, так и на тестовых наборах VOC2007.

Прогресс обнаружения объекта

Цель задачи обнаружения цели - дать изображение или видеокадр, позволить компьютеру найти в нем положение всех целей и указать конкретную категорию каждой цели.Он объединяет две задачи классификации целей и позиционирования. Говорить — значит просить машину рассказать, что и где изображено на картинке. Обнаружение лежит в основе многих приложений компьютерного зрения, таких как сегментация экземпляров, извлечение ключевых точек человека, распознавание лиц и т. д. Структура большинства современных детекторов объектов является двухэтапной, где обнаружение объектов определяется как многозадачная обучающая задача:

(1) Отличать блоки объектов переднего плана от фона и назначать им соответствующие метки классов;

(2) Регрессировать набор коэффициентов, чтобы максимизировать пересечение по объединению (IoU) или другим показателям между фреймом обнаружения и целевым фреймом. После этого избыточные ограничивающие рамки (повторяющиеся обнаружения одного и того же объекта) удаляются процессом NMS.

Якорный метод

Традиционные методы на основе привязки используют стратегии для предложения некоторых блоков-кандидатов (предыдущие блоки или блоки-привязки), а затем выполняют классификацию и регрессию позиций для этих блоков-кандидатов. Метод заключается в классификации (softmax) или регрессии (линейной регрессии) векторов карты характеристик, соответствующих этим блокам, для получения положения и категории блока.

Алгоритм OneStage напрямую извлекает функции в сети для прогнозирования классификации и местоположения объектов, Алгоритм Two Stage относится к тому, что сначала генерируются предложения, а затем выполняется детальное обнаружение объектов.

Структура большинства современных детекторов объектов представляет собой двухэтапный процесс:

(1) RPN: отличать кадр объекта переднего плана от фона и назначать им соответствующие метки класса;

(2) После регрессии набора коэффициентов для максимизации пересечения по объединению (IoU) или других индикаторов между полем обнаружения и полем цели удалите избыточные ограничивающие рамки (повторное обнаружение одной и той же цели) с помощью процесса NMS.

Важная техническая дорожная карта обнаружения целей четко описана на следующем рисунке:

Детекторы вех на графике: VJ Det, HOG Det, DPM, RCNN, SPPNet, Fast RCNN, Faster RCNN, YOLO, SSD, PyramidNetworks, RetinaNet.

Ниже приведены результаты обнаружения каждой модели обнаружения в наборах данных VOC07, VOC12 и MS-COCO:

Из-за нехватки места у нас будет возможность подробно объяснить каждый конкретный детектор в будущем.

Безанкорный метод

С момента создания CornerNet в августе прошлого года модели обнаружения целей Anchor-Free появлялись бесконечным потоком и в последнее время стали популярными. Так называемый Anchor-Free означает, что нет необходимости предварительно устанавливать какой-либо эталонный Anchor-Free.

Box, но напрямую предсказывает местоположение и категорию цели через модель, например, через ключевые точки.

На самом деле Anchor-Free не является новой концепцией, ее можно проследить до модели Baidu DenseBox (эта модель была предложена в 2015 году, раньше, чем Fast-RCNN), а популярной моделью YOLO также можно считать Anchor-Free моделью. в области обнаружения целей, а тень DenseBox можно увидеть в последних моделях без привязки, таких как FASF, FCOS и FoveaBox. Более репрезентативными моделями без привязки являются: DenseBox, YOLO, CornerNet, ExtremeNet, FSAF, FCOS, FoveaBox.

Хотя текущий метод без привязки не полностью превзошел традиционный метод, основанный на привязке, он обеспечивает новый осуществимый процесс обнаружения, в основном для того, чтобы проверить, является ли BoundingBox разумным выражением для обнаружения.Эволюция модели без привязки может привести к в лучшем целевом представлении.

Достижения в сегментации изображений

Сегментация изображения — это технология и процесс разделения изображения на несколько конкретных областей с уникальными свойствами и предложения объектов интереса, которую можно рассматривать как задачу попиксельной классификации изображения. Задачи сегментации в основном делятся на семантическую сегментацию, сегментацию экземпляров и паноптическую сегментацию, новую область, появившуюся только в этом году.На рисунке выше показана разница между различными сегментациями.

Давайте немного расширимся, чтобы проиллюстрировать различные задачи сегментации:

Семантическая сегментация:Семантическая сегментация уделяет больше внимания «различению категорий». Семантическая сегментация сосредоточится на отделении толпы на переднем плане от деревьев, неба и травы на заднем плане, но не выделяет отдельных индивидуумов толпы. все изображения отмечены красным цветом, так что человек в желтой рамке справа не может различить, один это человек или другой человек. Основными моделями являются U-Net, SegNet, серия DeepLab, FCN, ENet, ICNet, ShelfNet, BiseNet, DFN и CCNet и другие сети.

Сегментация экземпляра:Уделяя больше внимания «различению между людьми», развитие сегментации экземпляров в последние годы в значительной степени было обусловлено набором данных COCO и конкуренцией. От MNC, FCIS до PANet — все они позволяют занять первое место в сегментации экземпляров COCO. Основными моделями являются FCIS, DeepMask, MaskR-CNN, Hybrid Task Cascade (HTC), PANet и другие сети.

Панорамная сегментация:Можно сказать, что новая подзадача, впервые предложенная FAIR и Гейдельбергским университетом в Германии, представляет собой комбинацию семантической сегментации и сегментации экземпляров.В задаче панорамной сегментации каждый пиксель изображения имеет соответствующую семантическую метку и метку экземпляра, так что Способен понимать весь образ в значительной степени. Основными моделями являются JSIS-Net, TASCNet и др.

Модель сегментации изображения

Общая структура или процесс сегментации изображения выглядит следующим образом:

Понижающая дискретизация + повышающая дискретизация: свертка + деконволюция/изменение размера.

Слияние функций в нескольких масштабах: добавление функций точка за точкой / сшивание размеров каналов функций.

Получите карту сегмента на уровне пикселей: оцените категорию каждого пикселя.

На следующем рисунке показана техническая карта прогресса сегментации изображения:

1. Полностью сверточные сети (FCN): это новаторская работа нейронной сети для семантической сегментации, в которой предлагается полностью сверточная сеть. Полносвязная сеть заменяется сверточной сетью, так что сеть может принимать изображения любого размера и выводить сегментированное изображение того же размера, что и исходное изображение. Только после этого можно выполнить классификацию для каждого пикселя. Используется слой деконволюции, и карты объектов подвергаются повышенной дискретизации.

2. SegNet добавляет декодер на основе FCN, формируя популярную структуру кодирования и декодирования в текущей задаче сегментации, и дает эффект и причину различных декодеров на эффекте.

3. DeepLabv1/v2/v3: введена дилатационная свертка или Atrous Convolution, которая увеличивает поле зрения.

4. PSPNet: основным вкладом является Global Pyramid Pooling, который масштабирует карту объектов до нескольких разных размеров, так что функции имеют лучшую глобальную и многомасштабную информацию.

5. MaskR-CNN: обнаружение объектов и семантическая сегментация объединены вместе, а RoiAlign предлагается заменить RoiPooling, что устраняет проблему смещения, вызванную округлением, и повышает точность обнаружения.

6. U-Net: Принята структура кодирования и декодирования.В части кодирования новая шкала строится после каждого объединяющего слоя, включая в общей сложности 5 шкал исходной шкалы изображения. В части декодирования каждое повышение дискретизации выполняется в том же масштабе, что и количество каналов, соответствующих части выделения признаков. Таким образом, получается более богатая контекстная информация.В процессе декодирования подробная информация обогащается за счет многомасштабного слияния, а точность сегментации повышается.

Матирование изображения

Матирование также является своего рода проблемой сегментации переднего плана и фона, но матирование — это не жесткая сегментация, а мягкая сегментация (Soft Segmentation).Для переднего плана, такого как стекло и волосы, цвет соответствующего пикселя определяется не только цветом самого переднего плана, но переднего плана. В результате слияния цветов цель задачи матирования состоит в том, чтобы выяснить цвета переднего и заднего плана и степень слияния между ними.

ImageMatting только делит изображение на передний план и фон, цель состоит в том, чтобы получить передний план, и хороший алгоритм матирования будет более точным в обработке таких деталей, как волосы. Важное различие между матированием и сегментацией заключается в том, что сегментация возвращает результат классификации пикселей, а результат классификации является целым числом; в то время как матирование возвращает вероятность p переднего плана или фона, а в области взаимодействия между передним планом будет создаваться эффект градиента. и фон, делая матирование более естественным.

Основная проблема технологии матирования состоит в том, чтобы решить формулу: I = αF + (1-α)B, где I — наблюдаемый в данный момент пиксель изображения, который является известной величиной, α — прозрачность, F — пиксель переднего плана , B — фоновый пиксель. Эти три переменные неизвестны. Для понимания этой формулы исходное изображение можно рассматривать как передний план и фон, наложенные согласно определенному весу (альфа-прозрачность). Для пикселей, которые абсолютно точно будут передним планом, α = 1; для пикселей, которые абсолютно точно будут фоном, α = 0; для пикселей, которые не обязательно будут передним планом или фоном, α представляет собой число с плавающей запятой от 0 до 1.

Отличный алгоритм матирования — это хороший алгоритм, способный извлекать очень мелкие детали волос на переднем плане, чего нельзя достичь с помощью традиционных методов сегментации изображения.

Теперь глубокое обучение постепенно вводит матирование изображений, в основном используемый метод также является структурой кодировщика-декодера, но GroundTruth обучающих данных стал тримап. Более представительным является DeepImage Matting, комплексное решение, разработанное Adobe.

Поскольку сценарии применения не так обширны, как другие сегментации, в сочетании с отсутствием наборов данных и тестов, технология Matting не так популярна, как другие технологии сегментации.

следовать за

Конечно, компьютерное зрение — это больше, чем эти задачи.Классификация, обнаружение и сегментация — это только самые основные задачи компьютерного зрения, и эти задачи используются в других задачах из-за их базисности и универсальности. Например, в поле лица также используется обнаружение и классификация, а также сегментация при выполнении спецэффектов. Базовые сетевые структуры, представленные в этой статье, такие как ResNet, GoogleNet и т. д., используются и в других задачах.

В области глубокого зрения есть много других, которые не задействованы, такие как обнаружение ключевых точек, классификация видео, обнаружение и отслеживание видео, генеративно-состязательная сеть (GAN), автоматическое обучение (AutoML), распознавание лиц в вертикальных полях, оптическое распознавание символов (OCR), повторная идентификация пешеходов, в том числе широко используемые фреймворки глубокого обучения tensorflow, pytorch и т. д., а также не/слабо контролируемое обучение, самоконтролируемое обучение, обучение с подкреплением и т. д., которые были исследованы, каждый Подполе требует много места для обсуждения. Прогресс в этих направлениях будет описан позже.

Использованная литература:

1. https://blog.csdn.net/xys430381_1/article/details/89640699

2. https://medium.com/atlas-ml/state-of-deep-learning-h2-2018-review-cc3e490f1679

3. HTTPS://column.direct call.com/fear/57643009

4. HTTPS://column.call.com/afraid/62212910

5. https://cloud.tencent.com/developer/article/1428956

Данная статья впервые опубликована в паблике «Облачные технологии Xiaomi», при перепечатке просьба указывать источник,Нажмите, чтобы просмотреть исходную ссылку.