Аннотация: Благодаря способности глубокой нейронной сети извлекать исходные признаки, технология глубокого обучения достигла лучших результатов, чем традиционные методы в области кодирования со сжатием исходного кода.
Эта статья опубликована в облачном сообществе Huawei «Кодирование сжатия изображений и видео на основе глубокого обучения», первоначальный автор: Луо Пэн.
Благодаря способности глубокой нейронной сети извлекать исходные признаки, технология глубокого обучения достигла лучших результатов, чем традиционные методы в области кодирования со сжатием исходного кода.
Кодирование сжатия изображений на основе глубокого обучения
- автоэнкодер
Балле предложил сквозную модель сжатия изображений, основанную на вариационных автокодировщиках, с использованием схемы сверхприоритета, включающей дополнительную информацию.
Модель показана на рисунке ниже.
Q представляет собой квантование; AE и AD представляют собой арифметическое кодирование и декодирование соответственно; параметры свертки выражаются в виде слоев \times×length\times×width/down-sampling или up-sampling, \uparrow↑ означает повышающую дискретизацию, а \downarrow↓ означает понижение частоты дискретизации.
- Рекуррентная нейронная сеть (RNN)
Команда Google предлагает метод кодирования изображений с переменной степенью сжатия на основе архитектуры нейронной сети с долговременной кратковременной памятью (LTSM).
Модель показана на рисунке ниже.
Вышеприведенное изображение представляет собой остаточный кодировщик, основанный на деконволюции ядра свертки, и предлагаемая модель заключается в замене второго и третьего модулей свертки/деконволюции верхних и нижних уровней модулями LTSM.
Команда Google представила модули GRU и ResNet на основе предыдущей работы и дополнительно улучшила степень сжатия с помощью энтропийного кодирования.
Модель показана на рисунке ниже.
- Генеративно-состязательная сеть (GAN)
Агустссон предложил схему сжатия изображений на основе GAN, которая может выборочно генерировать соответствующие семантические метки для некоторых/всех изображений; при декодировании обычно сжатые части изображения декодируются нормально, а части, не относящиеся к изображению, генерируются сетью GAN.
Модель показана на рисунке ниже.
E_E_ — кодировщик, q_q_ — квантователь, G_G_ — декодер и генератор, D_D_ — противник.
Кодирование сжатия видео на основе глубокого обучения
Существует два типа кодирования видео, основанных на глубоком обучении:
-
Замена некоторых модулей в традиционном кодировании видео на глубокое обучение
-
Сквозное кодирование и сжатие с использованием глубокого обучения
-
Часть плана
Глубокие нейронные сети с выборкой могут заменить модули в традиционном кодировании видео, в том числе: внутреннее/внешнее предсказание, преобразование, выборку вверх и вниз, петлевую фильтрацию, энтропийное кодирование и т. д.
- комплексное решение
Лу предложил сквозную схему кодирования и сжатия видео с использованием глубокого обучения; она использует сверточную оценку оптического потока для оценки движения и использует два автоэнкодера для кодирования и сжатия информации об оптическом потоке и остаточной информации.
Структура кодирования показана на следующем рисунке:
Модуль сверточной сети используется для оценки оптического потока8 в качестве оценки движения.
Информация об оптическом потоке сжимается автокодировщиком, и сеть автокодировщика показана на следующем рисунке:
Объедините предыдущее изображение кадра и информацию об оптическом потоке, чтобы получить изображение с компенсацией движения. Сеть компенсации движения показана на следующем рисунке:
Остаток получается путем вычисления разницы между исходным изображением и скомпенсированным изображением, и остаток также сжимается автокодировщиком.
Риппель предложил сквозную схему сжатия видео, основанную на машинном обучении (включая глубокое обучение); использование многокадровой эталонной оценки оптического потока для оценки движения, использование автоматического кодировщика для кодирования и сжатия информации об оптическом потоке и остаточной информации, использование машинного обучения сделать контроль скорости.
Reference
1.[2018 ICLR]
Variational image compression with a scale hyperprior
2.[2018 NIPS]
Joint Autoregressive and Hierarchical Priors for Learned Image Compression
3.[2016 ICLR]
Variable Rate Image Compression with Recurrent Neural Networks
4.[2017 CVPR]
Full Resolution Image Compression with Recurrent Neural Networks
5.[2019 ICCV]
Generative Adversarial Networks for Extreme Learned Image Compression
6.[2019 MM]
Deep Learning-Based Video Coding: A Review and A Case Study
7.[2019 CVPR]
DVC: An End-to-end Deep Video Compression Framework
8.[2017 CVPR]
Optical Flow Estimation using a Spatial Pyramid Network
9.[2019 ICCV]
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~