Сжатие изображений и видео: глубокое обучение, есть набор

искусственный интеллект

​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​​Аннотация: Благодаря способности глубокой нейронной сети извлекать исходные признаки, технология глубокого обучения достигла лучших результатов, чем традиционные методы в области кодирования со сжатием исходного кода.

Эта статья опубликована в облачном сообществе Huawei «Кодирование сжатия изображений и видео на основе глубокого обучения», первоначальный автор: Луо Пэн.

Благодаря способности глубокой нейронной сети извлекать исходные признаки, технология глубокого обучения достигла лучших результатов, чем традиционные методы в области кодирования со сжатием исходного кода.

Кодирование сжатия изображений на основе глубокого обучения

  • автоэнкодер

Балле предложил сквозную модель сжатия изображений, основанную на вариационных автокодировщиках, с использованием схемы сверхприоритета, включающей дополнительную информацию.

Модель показана на рисунке ниже.

Q представляет собой квантование; AE и AD представляют собой арифметическое кодирование и декодирование соответственно; параметры свертки выражаются в виде слоев \times×length\times×width/down-sampling или up-sampling, \uparrow↑ означает повышающую дискретизацию, а \downarrow↓ означает понижение частоты дискретизации.

  • Рекуррентная нейронная сеть (RNN)

Команда Google предлагает метод кодирования изображений с переменной степенью сжатия на основе архитектуры нейронной сети с долговременной кратковременной памятью (LTSM).

Модель показана на рисунке ниже.

Вышеприведенное изображение представляет собой остаточный кодировщик, основанный на деконволюции ядра свертки, и предлагаемая модель заключается в замене второго и третьего модулей свертки/деконволюции верхних и нижних уровней модулями LTSM.

Команда Google представила модули GRU и ResNet на основе предыдущей работы и дополнительно улучшила степень сжатия с помощью энтропийного кодирования.

Модель показана на рисунке ниже.

  • Генеративно-состязательная сеть (GAN)

Агустссон предложил схему сжатия изображений на основе GAN, которая может выборочно генерировать соответствующие семантические метки для некоторых/всех изображений; при декодировании обычно сжатые части изображения декодируются нормально, а части, не относящиеся к изображению, генерируются сетью GAN.

Модель показана на рисунке ниже.

E_E_ — кодировщик, q_q_ — квантователь, G_G_ — декодер и генератор, D_D_ — противник.

Кодирование сжатия видео на основе глубокого обучения

Существует два типа кодирования видео, основанных на глубоком обучении:

  • Замена некоторых модулей в традиционном кодировании видео на глубокое обучение

  • Сквозное кодирование и сжатие с использованием глубокого обучения

  • Часть плана

Глубокие нейронные сети с выборкой могут заменить модули в традиционном кодировании видео, в том числе: внутреннее/внешнее предсказание, преобразование, выборку вверх и вниз, петлевую фильтрацию, энтропийное кодирование и т. д.

  • комплексное решение

Лу предложил сквозную схему кодирования и сжатия видео с использованием глубокого обучения; она использует сверточную оценку оптического потока для оценки движения и использует два автоэнкодера для кодирования и сжатия информации об оптическом потоке и остаточной информации.

Структура кодирования показана на следующем рисунке:

Модуль сверточной сети используется для оценки оптического потока8 в качестве оценки движения.

Информация об оптическом потоке сжимается автокодировщиком, и сеть автокодировщика показана на следующем рисунке:

Объедините предыдущее изображение кадра и информацию об оптическом потоке, чтобы получить изображение с компенсацией движения. Сеть компенсации движения показана на следующем рисунке:

Остаток получается путем вычисления разницы между исходным изображением и скомпенсированным изображением, и остаток также сжимается автокодировщиком.

Риппель предложил сквозную схему сжатия видео, основанную на машинном обучении (включая глубокое обучение); использование многокадровой эталонной оценки оптического потока для оценки движения, использование автоматического кодировщика для кодирования и сжатия информации об оптическом потоке и остаточной информации, использование машинного обучения сделать контроль скорости.

Reference

1.[2018 ICLR]

Variational image compression with a scale hyperprior

2.[2018 NIPS]

Joint Autoregressive and Hierarchical Priors for Learned Image Compression

3.[2016 ICLR]

Variable Rate Image Compression with Recurrent Neural Networks

4.[2017 CVPR]

Full Resolution Image Compression with Recurrent Neural Networks

5.[2019 ICCV]

Generative Adversarial Networks for Extreme Learned Image Compression

6.[2019 MM]

Deep Learning-Based Video Coding: A Review and A Case Study

7.[2019 CVPR]

DVC: An End-to-end Deep Video Compression Framework

8.[2017 CVPR]

Optical Flow Estimation using a Spatial Pyramid Network

9.[2019 ICCV]

Learned Video Compression

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~