Tuya Technology выиграла чемпионат CVPR Image Compression Challenge, TNGcnn4p Technology Full Interpretation

машинное обучение искусственный интеллект глубокое обучение алгоритм
Автор | Туя Технология
Редактор | Винсент
Руководство по передовой ИИ:С наступлением информационного века количество загружаемых и загружаемых в Интернет изображений и видео с каждым днем ​​стремительно увеличивается.Похоже, что оптимизация традиционных алгоритмов сжатия достигла узкого места и не может быть улучшена дальше. Исходя из этого, CVPR, как ведущая в мире конференция, посвященная компьютерному зрению, провела в 2018 году конкурс по сжатию изображений с помощью машинного обучения (CLIC) при спонсорской поддержке Google, Twitter, Netflix и т. д. с целью продвижения развития сжатия изображений.

В только что прошедшем конкурсе CVPR 2018 Machine Learning Image Compression Challenge первое место по значению MOS и ms-ssim заняла компания Tucodec TNGcnn4p из Tuya Technology.

Сегодня я хотел бы представить вам Tucodec TNGcnn4p, первого победителя MOS и MS-SSIM.Tucodec TNGcnn4p — это алгоритм сжатия изображений, основанный на глубоком обучении. оптимизированная структура сжатия изображений.

Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)

В этой статье предлагается структура сжатия изображений, которая может использоваться для сжатия изображений с низкой скоростью передачи данных и может быть оптимизирована от начала до конца. Экспериментальные результаты как на проверочном наборе, так и на тестовом наборе показывают, что оптимальная производительность может быть достигнута по субъективным показателям производительности, таким как MS-SSIM и MOS, когда критерий субъективной оценки используется в качестве функции потерь.

Краткое введение в технологию сжатия изображений и видео с глубоким обучением
1: Типичная структура для глубокого обучения сжатию изображений

2: Набор данных сжатия изображения

После проектирования сетевой модели вам необходимо использовать изображения для обучения. Поскольку сжатие изображений относится к обучению без учителя и не требует ручной аннотации, набор данных относительно легко собрать. Будь то ползание из интернета или съемка камерой, получить большое количество снимков высокой четкости не составит труда.

Обычно используемые наборы тестов:

• набор данных Kodak PhotoCD, разрешение изображения 768x512, около 400 000 пикселей;

• Набор данных Tecnick, около 1,4 миллиона пикселей;

• Набор данных CVPR 2018 CLIC с широким диапазоном категорий изображений, различными разрешениями (от 512 до 2048) и размерами файлов (от сотен K до нескольких M).

3: Фреймворк для сжатия видео с глубоким обучением

Видео состоит из покадровых изображений, и его метод сжатия имеет некоторое сходство со сжатием изображений.Основное отличие состоит в том, что сжатие видео с глубоким обучением увеличивает значение межкадрового предсказания/разности по сравнению со сжатием изображения.

Inter предсказание на основе сверточной сети

Межкадровое предсказание может значительно уменьшить избыточность между видеокадрами. Например, если в качестве примера взять 1 опорный кадр и предсказать N-1 кадров, то ограничение межкадрового предсказания состоит в том, что опорный кадр и предсказанное кодовое слово намного меньше, чем кодовое слово, сжатое отдельно для каждого кадра:

4: Глубокое обучение выбор блока кодирования изображения и видео сжатия

В настоящее время общее сжатие с глубоким обучением в основном использует CNN для обучения и прогнозирования классификации режимов единиц кодирования.В 2016 году Liu Z, Yu X, Chen S и др. опубликовали более подробное решение, ориентированное на CNN, быстрое решение для режима HEVC внутри CU.Классификация шаблонов (2Н х 2Н или Н х Н).

O2N, выход ON - стоимость искажения скорости

5: Кодирование изображения с понижением частоты дискретизации

Понижение частоты дискретизации в видеокадре в основном использует метод блочной обработки, который различает, подходит ли блок для понижения частоты дискретизации, а затем выполняет понижение частоты дискретизации на блоке, пригодном для понижения частоты дискретизации, и не выполняет понижение частоты дискретизации на блоке, который не подходит для понижения частоты дискретизации. . После выполнения этих шагов используйте CNN или DCTIF для повышения дискретизации в соответствии с ситуацией блока понижающей дискретизации для восстановления изображения.Конечно, для достижения лучших результатов каналы яркости и цветности также будут использовать различные сетевые архитектуры по мере необходимости. Здесь я рекомендую статью Fully Connected Network-Based Intra Prediction for Image Coding, опубликованную Jiahao Li и др. в 2018 г. В статье содержится более подробное введение в метод понижения дискретизации.

Преимущества и недостатки сжатия видео с глубоким обучением

С появлением узкого места традиционного сжатия все больше и больше предприятий и исследователей видят преимущества сжатия изображений с помощью глубокого обучения. Глубокое обучение имеет больший потенциал в области сжатия видео. Основными преимуществами глубокого обучения в области сжатия видео являются:

  1. Это может лучше реализовать трансформационное обучение и достичь лучших результатов.

  2. Алгоритм сквозного глубокого обучения может обучаться самостоятельно и не требует ручного проектирования, что может сэкономить много рабочей силы по сравнению с традиционной работой по сжатию видео.

  3. Глубокое обучение использует метод оптического потока для межкадрового предсказания, который является более точным, чем эвристический метод, используемый в традиционном сжатии видео, и может значительно уменьшить избыточную информацию между кадрами при сжатии.

С другой стороны, сжатие видео на основе глубокого обучения также сталкивается со многими проблемами. Например, он управляет битами, занятыми для реализации межкадрового предсказания.

Введение в технологию Tuya

В CVPR 2018 Learning Image Compression Challenge компания Tucodec TNGcnn4p компании Tuya Technology выиграла два чемпионата в MOS и MS-SSIM, заняв первое место в общем зачете.

TucodecTNGcnn4p — это сквозной алгоритм глубокого обучения, который использует сетевую структуру иерархического слияния признаков, а также новые методы квантования и методы оценки кодовых слов, в основном для сжатия изображений с низкой скоростью передачи данных. Сеть Tucodec TNGcnn4p использует модуль свертки и остаточный модуль для включения функции потерь в MS-SSIM.

Реконструкция изображения на основе сверхвысокого разрешения для глубокого обучения

В области сжатия изображений Tuya Technology фокусируется на реконструкции сверхвысокого разрешения (SR) изображений с низким битрейтом. По сравнению с изображениями с высоким битрейтом изображения с низким битрейтом имеют больше искажений, и применение технологии SR может устранить дефекты на этих изображениях и получить лучшие визуальные эффекты. Исходные детали изображения, сохраняемые изображениями с высокой скоростью передачи данных, более детализированы, а технология SR используется редко.

По сравнению со сжатием изображений глубокое обучение имеет больший потенциал в области сжатия видео. В настоящее время Tuya Technology добилась результатов, сравнимых с H265, в сжатии видео на основе глубокого обучения.

В заключение прилагается ссылка на статью Tucodec TNGcnn4p, если она вам нужна, вы можете скачать и изучить ее самостоятельно:

http://openaccess.thecvf.com/CVPR2018_workshops/CVPR2018_W50.py#