CVPR 2018 | Tencent Youtu предложила SRN-DeblurNet: эффективное и качественное удаление сложного размытия изображения

искусственный интеллект компьютерное зрение Архитектура Тенсент

Выбрано из arXiv, авторами Xin Tao, Hongyun Gao, Xiaoyong Shen, Jue Wang, Jiaya Jia, составлено Heart of Machines.

Изображения, снятые камерой, часто размыты из-за таких проблем, как дрожание рук или выбор фокуса. Удаление размытия изображения и представление деталей изображения — важная тема исследований в области компьютерного зрения. SRN-DeblurNet, предложенный исследователями из Китайского университета Гонконга, Tencent Youtu Lab и Megvii Technology, может более эффективно достигать лучших результатов, чем предыдущие лучшие методы. Работа принята на CVPR 2018, которая пройдет 18-22 июня в Солт-Лейк-Сити, штат Юта, США.


Удаление размытия изображения всегда было важной проблемой в области компьютерного зрения и обработки изображений. Если изображение размыто из-за движения или находится не в фокусе (из-за дрожания камеры, быстро движущейся цели или не в фокусе), цель устранения размытия — восстановить изображение с четкой структурой краев и богатыми реальными деталями.

Устранение размытости одиночного изображения — математически очень некорректная задача. Традиционный метод заключается в упрощении и моделировании принципа размытия (например, равномерное размытие/неравномерное размытие/размытие с учетом глубины) и использовании различных естественных априорных изображений [1, 3, 6, 14, 26, 37, 38]. для ограничения пространства решения. Большинство этих методов требуют обширной (иногда экспериментальной) настройки параметров и дорогостоящих вычислений. Кроме того, упрощенные модели размытия часто ухудшают их работу на реальных образцах снимков. В реальном мире размытие намного сложнее моделирования и даже требует обработки изображения внутри камеры.

Некоторые исследователи также предложили методы устранения размытия, основанные на обучении. Ранние подходы [28, 32, 35] использовали внешние обучающие данные для замены некоторых модулей или шагов в традиционных структурах набором обучаемых параметров. В более поздних работах начали использовать сквозные обучаемые сети для устранения размытия изображений [25] и видео [18, 31]. Среди них Нах и др. [25] достигли современного состояния с использованием многомасштабной сверточной нейронной сети (CNN). Их метод начинается с размытого изображения в очень маленьком масштабе, а затем постепенно восстанавливает более четкое изображение с более высоким разрешением, пока не будет достигнуто полное разрешение. Эта структура следует многоуровневому механизму в традиционных подходах, где процесс «от грубого к точному» является обычным при работе с большими ядрами размытия [6].

В этой статье мы исследуем более эффективную сетевую структуру для многомасштабного устранения размытия изображения. Мы предлагаем новую масштабно-рекуррентную сеть (SRN: масштабно-рекуррентную сеть), которая обсуждает и решает две важные общие проблемы в системах устранения размытия на основе CNN.


масштабная тренировочная структура

В существующих многомасштабных методах решатель и его параметры для каждого масштаба обычно одни и те же. Интуитивно это естественный выбор, поскольку на каждом уровне мы стремимся решить одну и ту же проблему. Также было обнаружено, что использование разных параметров в каждом масштабе может привести к нестабильности и дополнительным проблемам неограниченного пространства решений. Другая проблема заключается в том, что входные изображения могут иметь разное разрешение и масштаб движения. Если настройка параметров разрешена для любого масштаба, решение может перестраиваться при определенных разрешениях изображения или масштабах движения.

По той же причине мы считаем, что эту схему следует применять и к методам, основанным на CNN. Однако последние каскадные сети [4, 25] по-прежнему используют независимые параметры для каждого масштаба. В этом исследовании мы предлагаем разделить веса сети в разных масштабах, тем самым значительно уменьшив сложность обучения, а также предоставив значительные преимущества стабильности.

Этот подход имеет два преимущества. Во-первых, это значительно сокращает количество обучаемых параметров. Даже при одинаковом количестве обучающих данных эффект повторного использования общих весов подобен использованию нескольких данных для изучения параметров, что фактически эквивалентно увеличению данных в масштабе. Во-вторых, предлагаемая нами структура может использовать преимущества рекуррентных модулей, передача состояния которых может неявным образом собирать полезную информацию в различных масштабах и способствовать восстановлению изображения.


Кодировщик-декодер ResBlock Network

Структура кодер-декодер эффективно применяется в различных задачах компьютерного зрения [23, 31, 33, 39], и мы изучаем эффективные способы ее применения в задачах устранения размытия изображения. В этой статье мы покажем, что прямое применение существующих структур кодер-декодер не дает оптимальных результатов. Напротив, наша сеть кодировщик-декодер ResBlock усиливает преимущества различных архитектур CNN и обеспечивает возможность обучения. В то же время это также создает очень большое рецептивное поле, что имеет решающее значение для устранения размытия изображений с большим размытием движения.

Наши эксперименты показывают, что, используя рекуррентную структуру в сочетании с вышеуказанными преимуществами, наша сквозная структура устранения размытия изображения глубины может значительно повысить эффективность обучения (приблизительный эффект восстановления может быть достигнут примерно за четверть времени обучения [25]) . Мы используем менее одной трети обучаемых параметров и гораздо меньше времени тестирования. В дополнение к эффективности обучения наш метод обеспечивает более качественные результаты, чем существующие методы, как в количественном, так и в качественном сравнении, как показано на рисунке 1. Мы называем эту структуру масштабируемыми рекуррентными сетями (SRN).

Рисунок 1: Пример реального выстрела. (a) размытое изображение входа, (b) результат Sun и др. [32], (c) результат Nah и др. [25], (d) наш результат

Рисунок 2: Различные CNN для обработки изображений. (a) U-Net [27] или сеть кодера-декодера [24], (b) многомасштабная [25] или сеть каскадного уточнения [4], (c) расширенная сверточная сеть [5], (d) предложенная нами масштабируемая рекуррентная сеть (SRN).


Сетевая архитектура

Мы называем общую архитектуру предлагаемой нами сети SRN-DeblurNet, как показано на рисунке 3. Он принимает в качестве входных данных последовательность размытых изображений, уменьшенных из входного изображения в разных масштабах, и получает набор соответствующих четких изображений. Конечным результатом является четкое изображение в полном разрешении.

Рисунок 3: Предлагаемая нами структура SRN-DeblurNet


эксперимент

Наши эксперименты проводились на ПК с процессором Intel Xeon E5 и графическим процессором Nvidia Titan X. Мы реализовали наш фреймворк на платформе TensorFlow [11]. Мы всесторонне оцениваем различные сетевые структуры, чтобы проверить влияние различных структур на производительность. Справедливости ради следует отметить, что все эксперименты проводятся с одним и тем же набором данных с использованием одной и той же конфигурации обучения, если не указано иное.

Таблица 1: Количественные результаты эталонных моделей

Таблица 2: Количественные результаты набора тестовых данных (PSNR/SSIM)

Рисунок 5: Визуальное сравнение тестового набора данных. Сверху вниз: ввод, Уайт и др. [34], Сан и др. [32], Нах и др. [25] и наш метод.


Документ: Масштабно-рекуррентная сеть для глубокого устранения размытия изображения

Адрес бумаги:Woohoo.Цвет.Толстая черная рамка.Квота.Скоро/Дом Лео/Боюсь...

Аннотация: При удалении размытия одиночного изображения схема «от грубого к точному» (т. е. постепенное восстановление четких изображений с разным разрешением в форме пирамиды) оказалась очень успешной как в традиционных методах, основанных на оптимизации, так и в недавних нейронных сетях. основанные методы. В этой статье мы исследуем эту стратегию и предлагаем масштабируемую рекуррентную сеть (SRN-DeblurNet) для задач устранения размытия. По сравнению со многими недавними методами, основанными на обучении, в [25] его сетевая структура проще, количество параметров меньше, а обучение проще. Мы оцениваем наш метод на крупномасштабном наборе данных устранения размытия со сложным движением. Результаты показывают, что наш метод дает результаты более высокого качества, чем предыдущие лучшие результаты, как в количественном, так и в качественном отношении.