Работники компьютерного зрения всегда надеются «увидеть» каждый пиксель в процветающем мире, но они обнаруживают, что предел разрешения — это препятствие, которое они не могут обойти. Сегодня я расскажу вам о разрешении и реконструкции изображений сверхвысокого разрешения.
Предел разрешения
Предел разрешения является неизбежным техническим индикатором для исследователей, занимающихся реконструкцией изображений или алгоритмами постобработки изображений.Показатели временного разрешения определяют частоту кадров выходного видео, т. е. эффекты в реальном времени.;Производительность пространственного разрешения определяет, является ли разрешение изображения 720P, 1080P или 4K.;Производительность разрешения градации определяет полноту и детализацию цвета отображаемого изображения.. Следовательно, разрешение является ядром изображения, видео.
Сегодня мы кратко поговорим о пространственном разрешении.
В сценариях практического применения, ограниченных стоимостью оборудования для получения изображений, полосой пропускания видеоизображения или техническими узкими местами самой модальности изображения, у нас нет условий для получения каждый раз большого размера с четкими краями и отсутствием блочного размытия. HD-изображения. В контексте этого спроса появилась технология реконструкции сверхвысокого разрешения.
Рисунок 1
Сценарий приложения I: сжатие и передача изображения, то есть кодирование изображения с более низкой скоростью передачи данных, что может значительно сэкономить пропускную способность сервера пересылки в процессе передачи, декодировать изображение на клиенте для получения изображения с относительно низким разрешением. , и, наконец, использовать сверхвысокое разрешение.Обработка технологии реконструкции для получения изображений высокой четкости
фигура 2
Сценарий применения II: Визуализация биологической ткани Слева: Фотоакустическое микроскопическое изображение Справа: Фотоакустическое ультразвуковое микроскопическое изображение, отчетливо видна тонкая текстура крыльев пчелы [5]
Традиционные методы реконструкции со сверхвысоким разрешением можно условно разделить на четыре категории [1, 2], а именно методы реконструкции со сверхвысоким разрешением, основанные на прогнозировании, на основе краев, статистические методы и методы реконструкции со сверхвысоким разрешением на основе патчей/патчей и примеров.
В настоящее время наиболее часто используемым типом блока изображения является тип блока изображения.В области типа блока изображения мы выбрали 4 классические статьи о реконструкции сверхвысокого разрешения типа блока изображения на основе глубокого обучения для анализа ключевых технических точек. Из статьи видно, что исследователи по-разному понимают и решают задачи для задач сверхвысокого разрешения.
В 2012 году AlexNet выиграла ежегодный чемпионат ImageNet Large-scale Visual Recognition Challenge с исторически низким уровнем ошибок классификации в 15,4% после громкого призыва к бурному развитию глубокого обучения в области компьютерного зрения. Технология реконструкции сверхвысокого разрешения также начала использовать идею глубокого обучения для повышения производительности алгоритма.
Статья 1: Изображение сверхвысокого разрешения с использованием глубоких сверточных сетей
Авторы: Чао Донг, Чен Чанг Лой, Каймин Хэ и Сяоу Тан.
SRCNN — это новаторская работа в области реконструкции сверхвысокого разрешения на основе глубокого обучения.Он наследует идею разреженного кодирования в традиционной области машинного обучения и использует три сверточных слоя для достижения: 1. Извлечение блоков изображения и создание разреженного словаря. 2. Нелинейное сопоставление изображений между признаками высокого и низкого разрешения 3. Реконструкция фрагментов изображения высокого разрешения.
В частности, предполагается, что размер обрабатываемого изображения с низким разрешением составляет H × W × C, где H, W и C представляют длину, ширину и количество каналов изображения соответственно. ядром свертки первого слоя SRCNN является C × f1 × f1 × n1, что можно понимать как извлечение области блока изображения f1 × f1 на изображении с низким разрешением с помощью скользящего окна для выполнения n1 типов операций свертки. В рамках всего изображения каждый тип операции свертки может вывести вектор признаков, и, наконец, n1 векторов признаков составляют словарь разреженного представления изображений с низким разрешением, а размер словаря составляет H1 × W1 × n1; SRCNN второй Размер ядра свертки слоя составляет n1 × 1 × 1 × n2 для установления нелинейного отображения между словарем разреженного представления с низким разрешением в словарь с высоким разрешением, а выходной разреженный словарь с высоким разрешением имеет размерность H1 × W1 × n2. Стоит отметить, что на этом этапе SRCNN не использует полностью связанный слой для сопоставления между картами объектов или разреженными словарями, а использует ядро свертки 1x1, так что положение каждого пикселя в пространстве является общим параметром сопоставления, т. е. каждое пространственное положение нелинейно отображается одинаково, размер ядра свертки третьего слоя SRCNN составляет n2 × f3 × f3 × C, который определяется положением каждого пикселя в разреженном пространстве высокого разрешения. Вектор n2 × 1 восстанавливает блоки изображения f3 × f3, а блоки изображения перекрываются и закрывают друг друга, и, наконец, реализуют реконструкцию изображения со сверхвысоким разрешением.
Рис. 3. Трехслойная сверточная структура SRCNN [1]
Статья 2. Сверхвысокое разрешение одиночного изображения и видео в реальном времени с использованием эффективного
Sub-Pixel Convolutional Neural Network
Авторы: Венже Ши, Хосе Кабальеро, Ференц Хусар, Йоханнес Тотц, Эндрю П. Эйткен, Роб Бишоп, Дэниэл Рюкерт, Зехан Ван
После того, как SRCNN представила CNN в области реконструкции сверхвысокого разрешения, исследователи начали думать, как использовать «свертку» для решения более глубоких проблем. Если сглаживание по Гауссу или понижение разрешения изображения с высоким разрешением могут быть эквивалентны операции свертки, то процесс восстановления высокого разрешения из изображения с низким разрешением после понижения разрешения эквивалентен операции деконволюции. Наша вычислительная задача на данном этапе состоит в том, чтобы изучить подходящее ядро деконволюции для восстановления изображений с высоким разрешением из изображений с низким разрешением. Стандартная практика слоя деконволюции в CNN показана на рисунке 4. Изображение с низким разрешением заполняется нулевым значением (заполнение нулями), то есть с положением каждого пикселя в центре, окружающими 2×2 или 3×3. окрестности Заполните 0, а затем выполните операцию свертки с определенным размером ядра свертки.
Рис. 4 Схема реализации стандартного слоя деконволюции
Однако недостатки стандартных операций деконволюции очевидны: во-первых, дополненные нулями значения не содержат никакой достоверной информации, относящейся к изображению, а во-вторых, увеличивается вычислительная сложность операции свертки дополненных изображений. В этом случае Исследовательская группа Twitter по сжатию изображений и видео представила концепцию субпиксельной свертки в SRCNN.
Рис. 5. Структура сети эффективной субпиксельной сверточной нейронной сети (ESPCN) [2]
Основная идея Sub-Pixel заключается в том, что для изображения любого размера H × W × C размерность карты признаков, выводимой стандартной операцией деконволюции, составляет rH × rW × C, где r — супер- коэффициент разрешения, то есть увеличение размера изображения, и субразмер выходной карты объектов в пикселях составляет H × W × C × r2, то есть карта объектов сохраняется того же размера, что и входное изображение, но количество каналов ядра свертки увеличено, так что можно эффективно использовать информацию о соседних пикселях во входном изображении, а также избежать увеличения вычислительной сложности, вызванного заполнением 0.
Статья 3: Потери восприятия при передаче стиля в реальном времени и сверхразрешении
Авторы: Джастин Джонсон, Александр Алахи, Ли Фей-Фей
По сравнению с другими задачами машинного обучения, такими как обнаружение объектов или сегментация экземпляров, определение функции потерь задачи обучения в технологии реконструкции сверхвысокого разрешения обычно является относительно простым и грубым, поскольку цель нашей реконструкции состоит в том, чтобы сделать реконструкцию Пиковое отношение сигнал-шум (PSNR) между изображением с высоким разрешением и реальным изображением с высоким разрешением максимально велико, поэтому большая часть исследований реконструкции сверхвысокого разрешения, основанных на глубоком обучении, будет напрямую потеряна. Функция разработана как среднеквадратическая ошибка (MSE), то есть вычисление среднеквадратической ошибки между всеми соответствующими позициями пикселей двух изображений.Поскольку потеря MSE требует однозначного соответствия между позициями пикселей, ее также называют Per- Потеря пикселей.
Но с развитием технологий исследователи постепенно обнаруживали ограничения Per-Pixel Loss. Рассмотрим крайний случай, сместите исходное изображение высокого разрешения на один пиксель в любом направлении.На самом деле, разрешение и стиль самого изображения не сильно изменились, но на Per-Pixel Loss повлияет смещение этого Это значительное увеличение, поэтому ограничения Per-Pixel Loss не отражают высокоуровневые характеристики изображения. Поэтому исследователи, изучающие передачу стиля изображения, предложили концепцию Perceptual Loss на конференции CVPR 2016 года относительно Per-Pixel Loss.
Рис. 6 Полностью сверточная структура сети на основе Perceptual Loss [3]
Целью сети реконструкции сверхвысокого разрешения, основанной на потерях на пиксель, является непосредственное минимизация разницы между исходным изображением высокой четкости и реконструированным изображением сверхвысокого разрешения, так что восстановленное изображение сверхвысокого разрешения постепенно приближается к четкому эффекту исходное изображение. Но то, что сводит к минимуму потеря восприятия, — это разница между исходным изображением и картой признаков реконструированного изображения.Чтобы повысить эффективность вычислений, карта признаков в потере восприятия извлекается сверточной нейронной сетью с фиксированными значениями веса, такими как пред- обучение на наборе данных ImageNet Полученная сеть VGG16, как показано на рисунке 7, имеет различную информацию о признаках, извлекаемую сверточными слоями разной глубины, и текстуры отраженных изображений также различаются.
Рис. 7. Схематическая диаграмма признаков изображения, выделенных сверточными слоями разной глубины [3]
Поэтому при обучении нейронных сетей со сверхвысоким разрешением исследователи используют слои свертки с шагами вместо объединенных слоев, чтобы построить полностью сверточные нейронные сети (FCN) для реконструкции со сверхвысоким разрешением. более высокая производительность при обеспечении производительности сети. Наконец, сеть VGG16 используется для извлечения признаков исходного изображения и реконструированного изображения, а разница между двумя картами признаков сводится к минимуму, так что восстановленное изображение со сверхвысоким разрешением постоянно приближается к разрешению исходного изображения.
Статья 4: RAISR: быстрое и точное сверхвысокое разрешение изображения
Авторы: Янив Романо, Джон Исидоро и Пейман Миланфар.
Вышеупомянутые типичные методы сверхвысокого разрешения типа блока изображения (также называемого типом образца) основаны на однозначном соответствии блоков изображения высокого и низкого разрешения для обучения от низкого разрешения к высокому разрешению. изображения карта блоков. В частности, это сопоставление обычно представляет собой серию фильтров, и соответствующие фильтры выбираются для реконструкции сверхвысокого разрешения в соответствии с различными текстурными характеристиками различных положений пикселей входного изображения.
Основываясь на этой идее, Google выпустила алгоритм RAISR в 2016 году на основе исследований сверхвысокого разрешения, таких как SRCNN, A+ и ESPCN.Алгоритм ориентирован на высокую скорость работы в реальном времени и чрезвычайно низкую вычислительную сложность.Основная идея заключается в том, чтобы использовать парное высокое и низкое разрешение. Ряд фильтров получается путем обучения блоков изображения с высокой скоростью, и соответствующий фильтр выбирается в соответствии с индексом статистической характеристики локального градиента входного изображения для завершения реконструкции сверхвысокого разрешения во время тестирования. Таким образом, алгоритм RAISR состоит из двух частей: первая часть предназначена для обучения фильтра отображения высокого и низкого разрешения (отображение LR/HR), а вторая часть заключается в установлении механизма индексации фильтра (механизм хеширования).
Рис. 8. Фильтр повышения частоты дискретизации RAISR 2x [4]
Рисунок 9. Сравнение технических индикаторов между RAISR и SRCNN, A+ и другими алгоритмами сверхвысокого разрешения при частоте дискретизации 2x
Левое изображение — индикатор времени выполнения PSNR, а правое изображение — индикатор времени выполнения SSIM [4].
Эпилог
Реконструкция со сверхвысоким разрешением имеет широкие перспективы применения в обработке медицинских изображений, улучшении качества сжатых изображений и т. д., и в последние годы она стала горячей областью исследований в области глубокого обучения. Улучшения свертки и остаточных компонентов, дальнейший анализ различных типов потерь восприятия и исследование состязательных генеративных сетей для реконструкции сверхвысокого разрешения — все это направления, заслуживающие внимания.
использованная литература
[1] Dong, Chao, et al. "Image Super-Resolution Using Deep Convolutional Networks." IEEE Transactions on Pattern Analysis & Machine Intelligence 38.2(2016):295-307.
[2] Shi, Wenzhe, et al. "Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network." (2016):1874-1883.
[3] Johnson, Justin, A. Alahi, and F. F. Li. "Perceptual Losses for Real-Time Style Transfer and Super-Resolution." (2016):694-711.
[4] Romano, Yaniv, J. Isidoro, and P. Milanfar. "RAISR: Rapid and Accurate Image Super Resolution." IEEE Transactions on Computational Imaging 3.1(2016):110-125.
[5] Conkey, Donald B., et al. "Super-resolution photoacoustic imaging through a scattering wall." Nature Communications 6(2015):7902.