В эпоху Интернета сценарии приложений, такие как совместное использование социальных сетей, автоматическое вождение, расширенный дисплей, спутниковая связь, телевидение высокой четкости или видеонаблюдение, предъявляют высокие требования к изображениям и видео, а алгоритмы сжатия привлекают большое внимание.Однако различные сценарии приложений Требуются алгоритмы сжатия.Требования к производительности также различаются.Некоторые требования заключаются в том, чтобы в первую очередь поддерживать качество изображения высокой четкости, а некоторые требования должны быть небольшими по размеру, что может привести к ухудшению качества изображения.
Так как же использовать технологию глубокого обучения для разработки алгоритмов сжатия? Эта статья просто расскажет вам об этом.
Введение в платформу сжатия изображений для глубокого обучения и основные понятия
Как показано на рисунке 1, типичная структура сжатия изображения с самокодированием включает в себя несколько модулей, включая кодировщик, квантование, обратное квантование, декодер, оценку кодового слова, энтропийное кодирование и оптимизацию искажения скорости.
Роль каждого модуля в сети сжатия изображения с самокодированием поясняется на примере рисунка 1: Предположим, что размер входного изображения равен , размер признака кодирования, полученного после кодирования и обработки квантования, равен Количество битов занимает R, формула расчета скорости кодирования:
((1)
Проанализируйте формулу (1), которая относится к входному изображению и определяется структурой сети, а R определяется квантованием, распределением признаков кодирования и энтропийным кодированием.
Сжатый признак может быть декодирован после обратного энтропийного кодирования, обратного квантования и декодера. При условии, что качество декодируемого изображения остается неизменным, чем меньше R, тем выше эффективность сжатия.
Структуры кодирования и декодированияЭто основа сети автоэнкодера, целью которой является изучение нелинейного преобразования.
количественноРоль заключается в преобразовании чисел с плавающей запятой в целые или двоичные,обратное квантованиеЭффект противоположный.
Квантование — важный способ сокращения кодовых слов, но это также основная причина потери информации. Теоретически, чем тоньше квантование, тем меньше потеря информации, но это может привести к увеличению кодовых слов и усложнению обучения, поэтому очень важно разработать эффективный алгоритм квантования.
Для повышения эффективности сжатияДля целей необходимо использовать модуль оценки кодового слова для ограничения R во время обучения.
оценка кодового словаВо-первых, используйте модель априорной вероятности, чтобы точно оценить распределение признаков кодирования, чтобы убедиться, что предполагаемое распределение признаков кодирования максимально близко к фактическому распределению, а затем вычислить энтропию для оценки кодового слова после энтропийного кодирования.
Как правило, априорное значение можно смоделировать с помощью параметрической модели вероятности, такой как смешанная модель Гаусса, чтобы соответствовать распределению данных:
(2)
На основе оценки распределения признаков модуль энтропийного кодирования сначала вычисляет контекстную вероятность признака и дополнительно сжимает закодированный признак, что может еще больше уменьшить значение R. Оценка кодового слова предназначена для оценки количества битов, потребляемых после арифметического кодирования.При условии эффективного выполнения арифметического кодирования нижний предел размера кодового слова может быть выражен как энтропия:
(3)
Оценка кодового слова в основном используется для обучения.На практике предшествующая модель может использоваться для адаптивного арифметического кодирования для генерации кодовых потоков.
С точки зрения теории информации, когда функции кодирования более сконцентрированы, энтропия будет дополнительно уменьшаться, поэтому кодовое слово будет уменьшено после энтропийного кодирования, но это повлияет на способность представления сети и качество восстановленное изображение будет уменьшено, что приведет к искажению.
Следовательно, существует компромисс между кодовым словом энтропийного кодирования и качеством реконструкции изображения, который называетсяОптимизация скорости искажения.Скорость соответствует скорости кодирования, а искажение соответствует качеству восстановления.
Сеть сжатия с самокодированием обычно обучается с помощью функции потерь, построенной путем оптимизации скорости искажения.
Элементы реализации алгоритма сжатия
Наше текущее мышление:С точки зрения оптимизации структуры сети с самокодированием, разработки нового метода квантования, разработки новой функции сжатия, метода предварительного моделирования и оптимизации скорости искажения и т. д., чтобы улучшить производительность текущего алгоритма сжатия изображения, особенно младшего бита. производительность сжатия.
Технические трудности и барьеры:Трудно решить проблему, как оптимизировать структуру сети самокодирования, как совместно оптимизировать квантование и априорное моделирование на основе вариационной сети самокодирования, улучшить производительность сжатия изображения, уменьшить сложность, и улучшить практичность.
Немного опыта, которым можно поделиться:Точная априорная оценка вероятности полезна для адаптивного арифметического кодирования, а точная априорная оценка вероятности полезна для ограничения распределения кодовых слов во время обучения.На практике для моделирования априорной модели используется вероятностная модель с параметрами, такими как смешанная модель Гаусса.
На основе точной оценки априорных значений будет компромисс: чем более сконцентрированы функции кодирования, тем меньше энтропия, но это повлияет на способность сети к представлению и качество реконструкции будет снижено. Чтобы сделать два вопроса:
1) Точная предварительная оценка;
2) Компромисс между битрейтом и качеством реконструкции.
Почему стоит выбрать глубокое обучение
На данном этапе алгоритмы сжатия пользуются большим спросом в сценариях приложений, таких как совместное использование социальных сетей, дополненная реальность, автономное вождение, медицинская визуализация и телевидение высокой четкости.
Существующим алгоритмам нелегко оптимизировать существующие алгоритмы сжатия в соответствии с различными требованиями приложений.И теперь повышение производительности алгоритмов сжатия изображений и видео столкнулось с узким местом.
С точки зрения сжатия изображения, самое большое преимущество технологии, основанной на глубоком обучении, заключается в том, что ее можно разрабатывать и обучать в соответствии с различными приложениями,Субъективные или объективные показатели можно тренировать целенаправленно.
С точки зрения сжатия видео, сжатие с глубоким обучением использует архитектуру, отличную от H.264, H.265 и H.266, и использует сверточную нейронную сеть в качестве темы для проектирования, которая может более гибко преобразовывать свет в области машинного зрения. На данном этапе применяются такие алгоритмы, как оценка потока при моделировании межкадровых отношений, и разрабатываются высокоэффективные алгоритмы сжатия видео.
Кроме того, мы объединим сверхвысокое разрешение и другие технологии для дальнейшей оптимизации традиционных алгоритмов для уменьшения пропускной способности канала связи.
алгоритм сжатия с самокодированием,Самым большим преимуществом на данном этапе является оптимизация по конкретным показателям, что позволяет значительно улучшить субъективный эффект реконструированной карты.
Сеть GAN (состязательная генерация) хороша для субъективной производительности и улучшения визуальных эффектов, но объективное качество не очень хорошее,Как правило, алгоритм, разработанный для сети GAN, будет генерировать некоторые детали, несовместимые с исходными данными.На данном этапе мы поставили на первое место улучшение объективного качества (PSNR), и субъективное качество также достигло хороших результатов.
В будущем мы рассмотрим, следует ли использовать сеть GAN в соответствии с различными требованиями приложений. Хотя наше внимание на этом этапе сосредоточено на улучшении объективных характеристик, мы также обнаружили, что чем лучше объективное качество, тем меньше отличие от исходного изображения и соответствующее улучшение субъективного качества. что комбинация MSE и MS-SSIM может дать очень хорошие результаты производительности MS-SSIM.
Как показано на рисунке 2, модель, обученная с использованием MS-SSIM в качестве функции потерь (субъективная TNG), результирующий показатель MS-SSIM значительно лучше, чем модель, обученная с использованием MSE в качестве функции потерь (целевая TNG).
При том же субъективном индексе MS-SSIM TNG субъективно потребляет половину кодовых слов BPG и экономит 50% трафика По сравнению с JPEG TNG потребляет только 25–30% исходного трафика.
Суммировать