CVPR 2018 | Объяснение технических документов SenseTime: сверхвысокое разрешение изображения на основе пространственной модуляции

В области лежащих в основе визуальных алгоритмов SenseTime предложилАлгоритм сверхвысокого разрешения для создания более естественных и реалистичных текстурных изображений.. Эта статья является третьим выпуском интерпретации статьи SenseTime CVPR 2018.

Документ: Восстановление реалистичной текстуры в сверхвысоком разрешении изображения с помощью глубокого пространственного преобразования признаков
Авторы: Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy

Ссылка на бумагу:
АР Вест V.org/ABS/1804.02…
Project page:
MM lab.IE. Толстый черный ящик. Квота. Скоро/проекты/sf…

Введение

Однокадровое изображение со сверхвысоким разрешением предназначено для восстановления соответствующего изображения с высоким разрешением на основе одного изображения с низким разрешением. В последние годы сверточные нейронные сети продемонстрировали отличные эффекты реконструкции в задачах сверхвысокого разрешения изображений, но восстановление естественных и реалистичных текстур по-прежнему остается серьезной проблемой в задачах сверхвысокого разрешения.

Как восстановить естественную и настоящую текстуру? Эффективным способом является рассмотрение априорной семантической категории, то есть использование семантической категории различных областей изображения в качестве априорного условия сверхразрешения изображения, таких как небо, трава, вода, здания, леса, горы, растения, и Т. Д. Текстуры в разных категориях имеют свои уникальные характеристики.Другими словами, семантические категории могут лучше ограничивать существование нескольких возможных решений для одного и того же изображения с низким разрешением в сверхвысоком разрешении. Для примера зданий и растений, показанных на рисунке 1, их участки изображения с низким разрешением очень похожи. Несмотря на то, что в сочетании с генеративно-состязательной сетью (GAN) для восстановления супероценки, если априорная информация о категории области изображения не учитывается, полученный результат увеличивает детализацию текстуры, но не соответствует характеристикам текстуры, которые должна иметь сама область изображения. .

Рисунок 1: Влияние различных семантических априорных значений на сверхразрешение изображения в архитектурных и растительных регионах.

В процессе включения априорных значений семантических категорий возникают две проблемы. Первая проблема заключается в том, как выразить априорную семантическую категорию, особенно когда в изображении несколько семантических категорий. В этой статье в качестве априорного условия выбрана карта вероятности семантической сегментации, которая может предоставить информацию об области изображения на уровне пикселей, а вектор вероятности каждой точки пикселя может точно настроить результаты текстуры. Второй вопрос заключается в том, как эффективно включить семантические априорные данные в сеть. В этой статье предлагается новый уровень модуляции пространственных признаков (SFT), который может эффективно включать в сеть дополнительные априорные изображения (такие как карты вероятностей семантической сегментации) для восстановления текстур, которые согласуются с признаками семантической категории, к которой они принадлежат.

Окончательные результаты (показаны на рисунке 2) показывают, что по сравнению с существующей моделью SRGAN и моделью EnhanceNet сеть сверхвысокого разрешения, использующая слой модуляции пространственных признаков, может генерировать более естественные текстуры, а восстановленные изображения с высоким разрешением имеют лучшие визуальные эффекты. , реальность.

Рисунок 2: Сравнение окончательных результатов SRCNN, SRGAN, EnhanceNet и алгоритма SFT-GAN, предложенного в этой статье, при 4-кратном сверхразрешении.

Модуляция пространственных признаков

Слой модуляции пространственных признаков, предложенный в этой статье, вдохновлен условным слоем BN, но условный слой BN и другие уровни модуляции признаков (такие как FiLM) часто игнорируют пространственную информацию извлеченных сетью признаков, то есть для разных положений та же карта признаков, параметры модуляции остаются прежними. Однако для задач низкого уровня зрения, таких как суперразрешение, часто требуется учитывать больше пространственной информации изображения и выполнять различную обработку в разных местах. Основываясь на этой точке зрения, в этой статье предлагается слой модуляции пространственных признаков, структура которого показана на рисунке 3.

Рисунок 3: Структура слоя модуляции пространственных объектов

Слой модуляции пространственных признаков выполняет аффинное преобразование промежуточных признаков сети, а преобразованные параметры получают через несколько слоев преобразований нейронной сети по дополнительным априорным условиям (таким как карта вероятностей семантической сегментации, рассматриваемая в данной статье). еслиFпредставляет характеристики сети,γибетасоответственно представляют параметры масштаба и перевода полученного аффинного преобразования, тогда выходные признаки, полученные через слой модуляции пространственных признаков, будут следующими:

Уровень модуляции пространственных объектов можно легко интегрировать в существующие сети сверхвысокого разрешения, такие как SRResNet. Рисунок 4 представляет собой структуру сети, используемую в этой статье. Чтобы повысить эффективность алгоритма, сначала передайте карту вероятностей семантической сегментации через сеть условий, чтобы получить общие промежуточные условия, а затем «транслируйте» эти условия на все уровни SFT. Модель алгоритма в этой статье использует как потери восприятия, так и потери противника при обучении сети, которая называется SFT-GAN.

Рисунок 4: Схематическая диаграмма сетевой структуры

Результаты экспериментов

Результаты семантической сегментации

Как показано на рисунке 5, после точной настройки текущей сети семантической сегментации на основе глубокого обучения для наборов данных с низким разрешением она может генерировать удовлетворительные результаты сегментации для большинства сцен.

Сравнение результатов SFT-GAN и других моделей

На рисунке 6 показано сравнение результатов модели SFT-GAN и других моделей.Видно, что модели алгоритмов на основе GAN SRGAN, EnhanceNet и SFT-GAN в этой статье превосходят модель, направленную на оптимизацию PSNR с точки зрения визуальных эффектов. SFT-GAN может генерировать более естественные и реалистичные результаты, чем SRGAN и EnhanceNet, при восстановлении текстур (шерсть животных на изображении, кирпичи в зданиях и рябь на воде).

Рисунок 6: Сравнение результатов между моделью SFT-GAN в этой статье и существующими моделями сверхвысокого разрешения.

В проведенных пользователями оценках модель SFT-GAN также обеспечивает значительные улучшения по сравнению с предыдущими методами на основе GAN в различных семантических категориях (как показано на рисунке 7).

Рисунок 7. Пользователи оценивают производительность различных алгоритмов

Другие экспериментальные исследования

В документе также визуализируется взаимосвязь между картой вероятностей семантической сегментации и параметрами слоя модуляции признаков. На рис. 8 показаны карты вероятностей для категорий зданий и травы, а также связь параметров модуляции на определенном уровне сети. Видно, что параметры модуляции и карта вероятностей семантической сегментации тесно связаны, а границы разных категорий в параметрах модуляции все еще относительно четкие.

Рисунок 8: Связь между картой вероятности семантической сегментации и параметрами слоя модуляции признаков

В реальных сценах границы разделения категорий объектов обычно не очень очевидны, как, например, область растений и травы на рис. 9, переход между ними «бесшовный» и непрерывный, а карта вероятностей семантической сегментации, используемая в этом бумага и параметры слоя модуляции также постоянно изменяются. Следовательно, SFT-GAN может более точно модулировать генерацию текстуры.

Рисунок 9: Уровень SFT обеспечивает более точную модуляцию параметров

В статье также сравниваются другие способы объединения априоров:

Объединить изображение и полученную карту вероятностей семантической сегментации для общего ввода;
Обработайте разные категории сцен через разные ветви, а затем используйте карту вероятностей семантической сегментации, чтобы объединить их;
Метод модуляции признаков FiLM, который не учитывает пространственные отношения.

Как видно из рисунка 10:

Результат метода 1) не так эффективен, как уровень SFT (в модели SFT-GAN есть несколько уровней SFT, которые могут более тесно сочетать предыдущие условия);

Метод 2) недостаточно эффективен (SFT-GAN нужно выполнить только одну прямую операцию);

Метод 3) Поскольку нет пространственной связи, текстуры между разными классами мешают друг другу.

Рисунок 10: Сравнение результатов для различных комбинаций предварительных условий

в заключении

В этой статье подробно рассматривается, как использовать карты вероятностей семантической сегментации в качестве семантических априорных значений для ограничения пространства решений сверхвысокого разрешения, чтобы сгенерированные текстуры изображений больше соответствовали реальным и естественным свойствам текстуры. Также предлагается новый уровень модуляции пространственных признаков (SFT) для эффективного включения априорных данных в существующие сети. Слой модуляции пространственных объектов можно обучать от начала до конца, используя ту же функцию потерь, что и существующие сети сверхвысокого разрешения. Во время тестирования вся сеть может принимать изображения любого размера в качестве входных данных, и требуется только один прямой проход для вывода изображений с высоким разрешением в сочетании с априорными значениями семантической категории. Экспериментальные результаты показывают, что по сравнению с существующими алгоритмами сверхвысокого разрешения изображения, сгенерированные моделью SFT-GAN в этой статье, имеют более реалистичные и естественные текстуры.

использованная литература

SRGAN: C.Ledig, L.Theis, F.Huszar, J.Caballero, A.Cunningham, A.Acosta, A.Aitken, A.Tejani, J.Totz, Z.Wang и др.Фотореалистичные сверхвысокое разрешение одного изображения с использованием генеративной состязательной сети, CVPR, 2017.
EnhanceNet: M.S.Sajjadi, B.Scholkopf, and M.Hirsch. EnhanceNet: Single image super-resolution through automated texture synthesis. In ICCV, 2017
FilM: E.Perez, F.Strub, H.de Vries, V.Dumoulin, and A.Courville. FiLM: Visual reasoning with a general conditioning layer. In AAAI 2018.