Краткая история изображений в глубоком обучении

Люди — животные чувств.

Наш мозг, подобно центральному процессору чрезвычайно высокой сложности, каждый день получает данные в различных форматах и выполняет бесконечные вычисления, мы контактируем с миром с помощью различных органов чувств и извлекаем информацию из различных органов чувств, чтобы узнавать мир. Как средство, несущее наиболее обильную информацию, изображения всегда занимали важное место в истории познания человеком мудрости. Как люди используют такую пару невооруженным глазом для распознавания различных типов изображений (классификация изображений и распознавание образов), как сегментируют все виды объектов на изображениях (семантическая сегментация и обнаружение объектов), как представляют контуры объектов из размытых изображения (сверхвысокое разрешение изображения) и способы создания образных изображений (синтез изображений) — все это актуальные вопросы в области обработки изображений машинным зрением. Исследователи во всем мире надеются, что однажды компьютеры смогут заменить человеческий глаз, чтобы распознавать изображения и открывать секретные коды, скрытые в изображениях.

классификация изображений

Классификация изображений является важной задачей при обработке изображений. В области традиционного машинного обучения стандартным процессом идентификации и классификации изображения является извлечение признаков, их скрининг и, наконец, ввод вектора признаков в подходящий классификатор для завершения классификации признаков. До 2012 года Алекс Крижевский совершил прорыв, предложив сетевую структуру AlexNet.С помощью алгоритма глубокого обучения три модуля извлечения признаков изображения, скрининга и классификации были объединены в один, а глубина 5 слоев слоев свертки и Было разработано 3 слоя полностью связанных слоев.Структура сверточной нейронной сети извлекает и извлекает информацию об изображении слой за слоем в разных направлениях.Например, неглубокая свертка обычно получает общие черты, такие как края изображения, а глубокая свертка обычно получает специфические особенности распределения конкретный набор данных. В 2012 году компания AlexNet выиграла ежегодный чемпионат ILSVRC (ImageNet Large-Scale Visual Recognition Challenge) с рекордно низким уровнем ошибок 15,4% Стоит отметить, что уровень ошибок у занявшего второе место в том году составил 26,2%. Совершенная битва AlexNet, превосходящей традиционное машинное обучение, признана важнейшим историческим событием в области глубокого обучения, которое прозвучало громким призывом к взрывному развитию глубокого обучения в компьютерной сфере.

(На рисунке показан доктор Фейфей Ли и ее набор данных ImageNet) В мгновение ока GoogleNet родился в 2014. В это время глубокое обучение было усовершенствовано ZF-net и VGG-net, Глубина сети, размер ядра свертки и проблема градиента исчезновение в обратном распространении и т. д. Подробно обсуждались технические детали, Google представила блок Inception на основе этих технологий, что сильно нарушило последовательное расположение вычислительных блоков традиционной глубокой нейронной сети, то есть слой свертки -> слой активации -> слой пула -> Парадигма следующего сверточного слоя улучшает уровень ошибок классификации ImageNet до высокого уровня 6,7%.

С тенденцией все более глубокой сети и более сложной сетевой структуры обучение глубокой нейронной сети становится все более и более сложным.Проблема в том, что концепция остаточного обучения вводится в область глубокого обучения.Основная идея заключается в том, что когда нейронная сеть достигает насыщения в определенном слое, все последующие слои используются для отображения функции f (x) = x, При наличии линейных частей эту цель практически невозможно достичь.

Однако в ResNet, если некоторые сверточные слои замкнуты накоротко, когда обучение насыщено, цель всех последующих слоев становится функцией отображения f (x) = 0. Для достижения этой цели используется только процесс обучения. требуется. , значение каждой обучающей переменной может сходиться к 0. Появление остаточного обучения обеспечивает стабильность обучения сети за счет увеличения глубины сети и повышения производительности модели. В 2015 году ResNet также выиграла чемпионат ImageNet Challenge 2015 со сверхнизким уровнем ошибок 3,6% Эта технология также превзошла средний уровень человеческого распознавания, что означает начало подъема искусственного интеллекта на человеческую арену.

Обнаружение объектов на изображениях

Реализация задачи классификации изображений позволяет нам примерно знать, какой тип объектов содержится на изображении, но мы не знаем, где находится объект на изображении, и не знаем конкретной информации об объекте. такие сценарии, как распознавание номерных знаков, обнаружение нарушений правил дорожного движения, распознавание лиц, захват движения и простая классификация изображений, не могут полностью удовлетворить наши потребности. В это время необходимо ввести еще одну важную задачу в области изображения: обнаружение и распознавание объектов. В области традиционных машин типичным случаем является использование функции HOG (гистограммы градиента) для создания соответствующих «фильтров» различных объектов.Фильтр HOG может полностью записывать информацию о краях и контурах объекта и использовать эту фильтр к фильтру. При разных позициях разных изображений, когда амплитуда значения выходного отклика превышает определенный порог, считается, что фильтр и объект на изображении имеют высокую степень совпадения, тем самым завершая обнаружение объекта. Эта работа была совместно опубликована Педро Ф. Фельзенсалбом, Россом Б. Гиршиком, Дэвидом Макаллестером и Девой Раманан в сентябрьском выпуске журнала IEEE Transactions on Pattern Analysis and Machine Interlligence as Object Detection with Discriminatively Trained Part-Based Models за 2010 год.

(В типичном случае традиционного машинного обучения фильтр функций HOG полностью записывает общий контур человека и подробную информацию о некоторых характерных частях, таких как глаза, туловище, конечности и т. д.)

Время проходит как белая лошадь, и за последние четыре года Росс Б. Гиришик вырос из студента IEEE, который стоял на плечах гигантов, в фигуру уровня бога в индустрии искусственного интеллекта. , унаследовав волю пионера в области глубокого обучения.В 2014 г. опубликовал на конференции CVPR статью под названием Rich Feature Hirarchies for Accurate Object Detection and SemanticSegmentation. RCNN, двух в одно мгновение не бывает, и мир это знает.

(На рисунке показаны «Четыре древних мастера» глубокого обучения, слева направо [1] Ян Лекун, сторонник сверточной нейронной сети, [2] известный как «отец глубокого обучения», лидер глубокого обучения , и недавний контртекущий Джеффри Хинтон, предложивший концепцию Deep Network Capsule, [3] Йошуа Бенжио, автор книги «Глубокое обучение», [4] Эндрю Нг, бывший директор Стэнфордской лаборатории искусственного интеллекта (Wu Enda))

Основная идея RCNN состоит в том, чтобы преобразовать задачу обнаружения объекта в задачу классификации.Вход RCNN представляет собой серию блоков изображения, извлеченных из изображения с помощью алгоритма выборочного поиска, который мы называем предложением области. После деформирования предложения регионов нормализуются до одинакового размера и вводятся в предварительно обученную и точно настроенную сверточную нейронную сеть для извлечения функций CNN. После получения характеристик CNN каждого предложения для каждой категории объектов обучите двоичный классификатор, чтобы определить, принадлежит ли предложение к категории объектов. В 2015 году, чтобы сократить время извлечения функций CNN из каждого предложения, Гиришик позаимствовал технологию объединения в сети Spatial Pooling Pyramid Network (SPPnet), сначала использовал целое изображение для извлечения карты характеристик CNN, а затем перехватил различные функции на эта карта функций Предложение положения, чтобы получить предложения функций разных размеров, и, наконец, эти предложения функций стандартизированы SPPnet до одного размера для классификации. Это улучшение устраняет недостаток, заключающийся в том, что каждое предложение в RCNN должно выполнять извлечение признаков CNN, и завершает извлечение признаков всего изображения за один раз, что значительно сокращает время работы модели, поэтому оно называется «Fast R-CNN». на конференции ICCV 2015 была опубликована одноименная статья.

В 2015 году Гиришик продолжал усердно работать над определением уровня RPN (регион-предложение-сеть), чтобы заменить традиционный алгоритм перехвата предложения региона и внедрить перехват предложения региона в глубокую нейронную сеть, что еще больше улучшило модель. Эффективность быстрого R-CNN. Поэтому, известный как «Faster R-CNN», Гиришик опубликовал ключевую статью под названием «Faster R-CNN: на пути к обнаружению объектов в реальном времени с сетями предложений регионов» на NIPS2015, завершив тройной прыжок в области исследований RCNN.

(На картинке показан процесс алгоритма RCNN, который в конечном итоге может идентифицировать «лошадей» и «людей», едущих верхом)

генерация изображения

С развитием времени ученые становятся не только исследователями техники, но и творцами искусства. Еще одна душа нового поколения в области искусственного интеллекта, Ян Гудфеллоу, предложил концепцию генеративно-состязательной сети в 2014 году, определив генератор и дискриминатор для выполнения задачи генерации изображения. Принцип заключается в том, что задача генератора состоит в том, чтобы «создать» из случайного шума «фальшивые изображения», близкие к целевому изображению, для обмана дискриминатора, а задача дискриминатора — определить, какие изображения из реального набора данных, а какие — из реального. набор данных.Изображение исходит от генератора.В противоборстве между генератором и дискриминатором обучение завершается с помощью разумного дизайна функции потерь.После того, как окончательная модель сходится, выход вероятности дискриминатора является постоянным 0,5, то есть, изображение поступает от генератора и дискриминатора Вероятность реального набора данных одинакова, а распределение вероятностей изображений, сгенерированных генератором, бесконечно близко к реальному набору данных.

Технология GAN стала горячей областью исследований глубокого обучения в 2015 и 2016 годах и добилась отличных результатов в восстановлении изображений, шумоподавлении, реконструкции со сверхвысоким разрешением и в других направлениях, а также получила ряд таких результатов, как WGAN, Info-GAN, DCGAN. , Conditional-GAN и т.д. Технологии возглавили волну трендов.

(На картинке показано использование технологии Cycle-GAN для создания картин маслом в стиле Моне и Ван Гога из обычной фотографии)

История образа только начинается.

Когда мы соединяем кадр изображений вместе и превращаем его в поток света и тени, проблема, которую мы изучаем, простирается от пространственного измерения до временного измерения Нам нужно заботиться не только о положении, категории, форме контура и семантической информации. объектов на изображении. Мы должны уделять больше внимания временным отношениям между кадрами изображения, захватывать и идентифицировать движение объекта, извлекать сводку видео, анализировать значение, выраженное видео, учитывать звук и текстовые аннотации в дополнение к изображению, для обработки ряда естественных языков, наше исследование шаг за шагом, к более широкой звезде и морю.

Изображения и видео — это виртуальные цепочки чисел, по одному байту за раз, но они делают мир более реальным. (Wechat search tucodec, вы можете связаться с нами)