Практика применения сверхвысокого разрешения в мобильном аудио и видео в реальном времени

RTC

На Интернет-конференции RTC 2019 в режиме реального времени инженер алгоритмов искусственного интеллекта Agora Чжоу Шифу поделился трудностями, распространенными решениями и решениями, когда суперразрешение применяется к мобильным аудио- и видеосценариям в реальном времени.

В последние годы супер-разрешение (называемое супер-разрешением) продемонстрировало широкие перспективы применения для улучшения изображения, шумоподавления, восстановления деталей и увеличения изображения. В отрасли также проводились соревнования по супер-оценке, такие как видео-супер-скоринг Youku. конкурса, конкурса Shengwang на супероценку изображений и конкурса AI + 4K HDR, проводимого муниципальным правительством Шэньчжэня, с целью привлечь больше людей к участию в исследованиях и продвижении алгоритмов суперскоринга. Потому что есть еще некоторые проблемы, которые необходимо срочно решить в крупномасштабном применении алгоритма суперсчета.

Сложности суперсчета в реальном времени на мобильных устройствах

В настоящее время проблема аудио- и видеоприложений в реальном времени на мобильных терминалах заключается в том, что разрешение передаваемого видео низкое, а разрешение экрана дисплея терминала высокое, и возникает проблема несоответствия разрешений. Разрешение видео, передаваемого в реальном времени, как правило, низкое из-за ограничения полосы пропускания передачи и требований к реальному времени. Видео с низким разрешением не может эффективно отображать детали изображения, что ограничивает возможности пользователей. Чтобы решить проблему, связанную с тем, что передаваемое видео не соответствует разрешению экрана дисплея терминала, обычной практикой является увеличение видео с низким разрешением.

Наиболее часто используемым традиционным методом увеличения является метод интерполяции, такой как бикубический, ближайший, билинейный и т.д. Преимуществом является быстрая скорость, но очевиден и недостаток, т.е. детали теряются.

С появлением глубокого обучения супер-оценка на основе глубокого обучения стала новым решением, а также методом, который изучается как академическими кругами, так и промышленностью. Он эффективно восстанавливает детали изображения и поддерживает четкость изображения. Однако алгоритм суперразрешения, основанный на глубоком обучении, также сталкивается с проблемами в процессе реализации.Основные таблицы включают: (1) модель суперразрешения слишком велика, (2) алгоритм суперразрешения сложен.

Super Score против Бикубика

В настоящее время в академическом мире существуют две классические модели сверхвысокого разрешения SRGAN и ESRGAN, как показано в таблице 1 ниже, мы перечисляем параметры и сложность алгоритма двух моделей. Параметры SRGAN и ESRGAN равны 1,5 млн и 16 млн соответственно, а необходимое дисковое пространство — 6Мб и 63Мб соответственно. Модели слишком велики для мобильных устройств и занимают слишком много памяти.

Давайте посмотрим на вычислительную сложность. Принимая изображение 360x480 в качестве входных данных и выполняя 4-кратное увеличение, вычислительная сложность SRGAN и ESRGAN может достигать 446GFLOP и 3100GFLOP соответственно. Графический процессор текущего мобильного телефона iphone XR имеет вычислительную мощность около 500 GFLOPS. Видно, что текущие вычислительные мощности мобильных устройств не могут запускать существующие модели сверхвысокого разрешения в режиме реального времени.Необходимо уменьшить алгоритмическую сложность модели и уменьшить размер модели, чтобы супер-разрешение в реальном времени Модель разрешения можно запускать в режиме реального времени на мобильных устройствах.

Как уменьшить сложность алгоритма и размер модели?

Методы уменьшения алгоритмической сложности модели и уменьшения размера модели обычно представляют собой сжатие модели и ускорение модели. Целью сжатия модели является уменьшение избыточных весов в модели и удаление ветвей, которые мало влияют на производительность модели, чтобы уменьшить количество параметров модели и уменьшить объем вычислений модели. Ускорение модели направлено на сокращение накладных расходов на операции свертки и повышение эффективности операций свертки, тем самым повышая скорость работы модели. Сжатие модели и ускорение модели дополняют друг друга.Благодаря сочетанию разумного алгоритма сжатия модели и алгоритма ускорения модели можно эффективно уменьшить объем модели и повысить скорость работы модели.

Методы сжатия модели можно разделить на оптимизацию веса и проектирование структуры модели. Оптимизацию веса также можно разделить на обрезку и квантование. Обрезка заключается в удалении избыточных весов в модели для достижения цели уменьшения размера модели. Например, глубокое сжатие [1] за счет сокращения веса, квантования веса и кодирования веса может уменьшить размер модели в 49 раз. Для весового квантования веса хранятся с низкой скоростью передачи, тем самым уменьшая размер модели.Например, модель XNornet[2] выполняет двоичное квантование на входных картах признаков и весах для достижения 58-кратного сжатия модели и 32-кратного ускорения. .

Классическими облегченными моделями являются suqeezenet [3], mobilenet [4] и shufflenet [5]. С точки зрения проектирования структуры модели они обычно используют маленькие ядра свертки вместо больших ядер свертки, например, 3x3 вместо 5x5, 7x7 или 1x1 вместо 3x3. При тех же условиях работа 3х3 составляет 9/25, 9/49 5х5, 7х7, а 1х1 - 1/9 3х3.

Метод ускорения модели на основе свертки позволяет получить свертки по глубине, групповые свертки и точечные свертки. В модели mobilenett широко используются глубинная свертка и точечная свертка. В модели shufflenet используются групповая свертка и точечная свертка.

На основе вышеупомянутого исследования Shengwang также разработала собственный алгоритм суперсчета. Громкость модели SoundNet со сверхвысоким разрешением меньше, чем у модели mobilenet v2. Когда изображение 360p увеличивается в 2 раза, вычислительная сложность составляет менее 2GFLOP, и его можно запускать в реальном времени на мобильных устройствах. При условии достижения более высокой скорости вычислений и эффекта сверхвысокого разрешения он может эффективно улучшить работу пользователей с мобильным аудио и видео в реальном времени.

Нажмите здесь, чтобы просмотреть PPT и видеозапись выступления на конференции RTC 2019..

использованная литература

  1. Han S, Mao H, Dally W J, et al.Deep Compression: Compressing Deep Neural Networks with Pruning, TrainedQuantization and Huffman Coding[J]. arXiv: Computer Vision and PatternRecognition, 2015.

  2. Rastegari M, Ordonez V, RedmonJ, et al. XNOR-Net: ImageNet Classification Using Binary Convolutional NeuralNetworks[C]. european conference on computer vision, 2016: 525-542.

  3. Iandola F, Han S, Moskewicz MW, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and<0.5MB model size[J]. arXiv: Computer Vision and Pattern Recognition, 2017.

  4. Howard A G, Zhu M, Chen B, etal. MobileNets: Efficient Convolutional Neural Networks for Mobile VisionApplications[J]. arXiv: Computer Vision and Pattern Recognition, 2017.

  5. Zhang X, Zhou X, Lin M, et al.ShuffleNet: An Extremely Efficient Convolutional Neural Network for MobileDevices[J]. arXiv: Computer Vision and Pattern Recognition, 2017.