В только что прошедшем конкурсе CVPR 2018 Machine Learning Image Compression Challenge первое место по значению MOS и ms-ssim заняла компания Tucodec TNGcnn4p из Tuya Technology.
Сегодня я хотел бы представить вам Tucodec TNGcnn4p, первого победителя MOS и MS-SSIM.Tucodec TNGcnn4p — это алгоритм сжатия изображений, основанный на глубоком обучении. оптимизированная структура сжатия изображений.
Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)
В этой статье предлагается структура сжатия изображений, которая может использоваться для сжатия изображений с низкой скоростью передачи данных и может быть оптимизирована от начала до конца. Экспериментальные результаты как на проверочном наборе, так и на тестовом наборе показывают, что оптимальная производительность может быть достигнута по субъективным показателям производительности, таким как MS-SSIM и MOS, когда критерий субъективной оценки используется в качестве функции потерь.
После проектирования сетевой модели вам необходимо использовать изображения для обучения. Поскольку сжатие изображений относится к обучению без учителя и не требует ручной аннотации, набор данных относительно легко собрать. Будь то ползание из интернета или съемка камерой, получить большое количество снимков высокой четкости не составит труда.
Обычно используемые наборы тестов:
• набор данных Kodak PhotoCD, разрешение изображения 768x512, около 400 000 пикселей;
• Набор данных Tecnick, около 1,4 миллиона пикселей;
• Набор данных CVPR 2018 CLIC с широким диапазоном категорий изображений, различными разрешениями (от 512 до 2048) и размерами файлов (от сотен K до нескольких M).
Видео состоит из покадровых изображений, и его метод сжатия имеет некоторое сходство со сжатием изображений.Основное отличие состоит в том, что сжатие видео с глубоким обучением увеличивает значение межкадрового предсказания/разности по сравнению со сжатием изображения.
Inter предсказание на основе сверточной сети
Межкадровое предсказание может значительно уменьшить избыточность между видеокадрами. Например, если в качестве примера взять 1 опорный кадр и предсказать N-1 кадров, то ограничение межкадрового предсказания состоит в том, что опорный кадр и предсказанное кодовое слово намного меньше, чем кодовое слово, сжатое отдельно для каждого кадра:
В настоящее время общее сжатие с глубоким обучением в основном использует CNN для обучения и прогнозирования классификации режимов единиц кодирования.В 2016 году Liu Z, Yu X, Chen S и др. опубликовали более подробное решение, ориентированное на CNN, быстрое решение для режима HEVC внутри CU.Классификация шаблонов (2Н х 2Н или Н х Н).
O2N, выход ON - стоимость искажения скорости
Понижение частоты дискретизации в видеокадре в основном использует метод блочной обработки, который различает, подходит ли блок для понижения частоты дискретизации, а затем выполняет понижение частоты дискретизации на блоке, пригодном для понижения частоты дискретизации, и не выполняет понижение частоты дискретизации на блоке, который не подходит для понижения частоты дискретизации. . После выполнения этих шагов используйте CNN или DCTIF для повышения дискретизации в соответствии с ситуацией блока понижающей дискретизации для восстановления изображения.Конечно, для достижения лучших результатов каналы яркости и цветности также будут использовать различные сетевые архитектуры по мере необходимости. Здесь я рекомендую статью Fully Connected Network-Based Intra Prediction for Image Coding, опубликованную Jiahao Li и др. в 2018 г. В статье содержится более подробное введение в метод понижения дискретизации.
С появлением узкого места традиционного сжатия все больше и больше предприятий и исследователей видят преимущества сжатия изображений с помощью глубокого обучения. Глубокое обучение имеет больший потенциал в области сжатия видео. Основными преимуществами глубокого обучения в области сжатия видео являются:
Это может лучше реализовать трансформационное обучение и достичь лучших результатов.
Алгоритм сквозного глубокого обучения может обучаться самостоятельно и не требует ручного проектирования, что может сэкономить много рабочей силы по сравнению с традиционной работой по сжатию видео.
Глубокое обучение использует метод оптического потока для межкадрового предсказания, который является более точным, чем эвристический метод, используемый в традиционном сжатии видео, и может значительно уменьшить избыточную информацию между кадрами при сжатии.
С другой стороны, сжатие видео на основе глубокого обучения также сталкивается со многими проблемами. Например, он управляет битами, занятыми для реализации межкадрового предсказания.
В CVPR 2018 Learning Image Compression Challenge компания Tucodec TNGcnn4p компании Tuya Technology выиграла два чемпионата в MOS и MS-SSIM, заняв первое место в общем зачете.
TucodecTNGcnn4p — это сквозной алгоритм глубокого обучения, который использует сетевую структуру иерархического слияния признаков, а также новые методы квантования и методы оценки кодовых слов, в основном для сжатия изображений с низкой скоростью передачи данных. Сеть Tucodec TNGcnn4p использует модуль свертки и остаточный модуль для включения функции потерь в MS-SSIM.
Реконструкция изображения на основе сверхвысокого разрешения для глубокого обучения
В области сжатия изображений Tuya Technology фокусируется на реконструкции сверхвысокого разрешения (SR) изображений с низким битрейтом. По сравнению с изображениями с высоким битрейтом изображения с низким битрейтом имеют больше искажений, и применение технологии SR может устранить дефекты на этих изображениях и получить лучшие визуальные эффекты. Исходные детали изображения, сохраняемые изображениями с высокой скоростью передачи данных, более детализированы, а технология SR используется редко.
По сравнению со сжатием изображений глубокое обучение имеет больший потенциал в области сжатия видео. В настоящее время Tuya Technology добилась результатов, сравнимых с H265, в сжатии видео на основе глубокого обучения.
В заключение прилагается ссылка на статью Tucodec TNGcnn4p, если она вам нужна, вы можете скачать и изучить ее самостоятельно:
http://openaccess.thecvf.com/CVPR2018_workshops/CVPR2018_W50.py#