Более быстрые нейронные сети прямо из jpegNotes

Introduction

JPEG является распространенной формой хранения изображений. Он фактически сохраняет низкочастотные коэффициенты изображения после преобразования DCT. В настоящее время CNN свертывает тензоры RGB и должен пройти преобразование DCT-> RGB. Если коэффициенты DCT используются напрямую, вы может сэкономить время и добиться эффекта ускорения. В этой статье ускорение практикуется с целью обеспечения производительности.

Method

При рассмотрении того, как передать тензор, состоящий из коэффициентов DCT, в CNN, автор в основном рассматривает выравнивание карты признаков.

Fig1

Три канала YCbCr, полученные в результате преобразования RGB, обычно не имеют одинакового размера. Как правило, канал яркости Y будет больше, как показано на рис. 1 (а). Поэтому необходимо разработать две разные стратегии преобразования T1 и T2 для каналов яркости и цветности соответственно. Автор попробовал три идеи: апсемплинг, даунсэмплинг, поздняя конкатенация. Среди них понижение дискретизации Y до того же размера, что и у канала цветности, приведет к снижению точности, поэтому это не будет обсуждаться. Конкретная операция повышения дискретизации показана на рисунке 2 б. После повышения частоты дискретизации канала цветности он достигает того же размера, что и Y. Late-Concat использует сначала свертку до того же размера, а затем сплайсинг. Разница между этими двумя методами заключается в том, выполняется ли выравнивание путем свертки или повышения частоты дискретизации.

Рис. 2. Схематическая диаграмма метода выравнивания карты объектов

Results

Чтобы доказать эффективность DCT-преобразования, автор пытается объединить 88 и 4Коэффициенты DCT, равные 4, непосредственно используются при обучении сети, и из рисунка 3 видно, что соответствующие DCT-frozen и DCT-frozen2 дали результаты, аналогичные другим методам. А в соответствии с методом DCT на рис. 4 можно достичь хорошего баланса между скоростью работы и точностью.

Рис. 3 Сравнение показателей точности различных методов

5.1.jpg

Рис. 4. Сравнительная таблица FLOP

Comparison

Улучшение Обучения по частоте по сравнению с этим методом заключается в том, что YCbCr напрямую преобразуется в тот же размер, что удобно для последующей унифицированной обработки всего тензора, что упрощает сложность поканальной обработки на ранней стадии этого метода. Во-вторых, Learning... опирается на идею Senet и использует механизм шлюза для устранения избыточных каналов для дальнейшего упрощения сети. Наконец, Learning.. также обобщает метод DCT на окрестности сегментации экземпляров, доказывая обобщаемость метода. Если только с точки зрения точности задачи классификации, она не сильно улучшается по сравнению с этой статьей.

И модель, используемая для сравнения в обучении…, равна 8.8, не лучший экспериментальный результат автора данной статьи 4Модель 4DCT.

Conclusion

Наконец, Learning... предположил, что еще одно преимущество использования DCT заключается в том, чтобы обеспечить больший входной сигнал RGB за счет разумного выбора размера ядра DCT, но в этой статье непосредственно обрабатывается результат кодирования JPEG без участия RGB.

Хотя обучение в частотной области имеет небольшое улучшение точности, оно имеет небольшое преимущество перед традиционной сверток RGB, и его основной вклад заключается в повышении скорости работы.

Reference

[1] Gueguen, L., Sergeev, A., Kadlec, B., Liu, R., & Yosinski, J. (2018). Faster neural networks straight from jpeg. Advances in Neural Information Processing Systems, 31, 3933-3944.

[2] Xu, K., Qin, M., Sun, F., Wang, Y., Chen, Y. K., & Ren, F. (2020). Learning in the frequency domain. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1740-1749).

[3] Hu, J., Shen, L., & Sun, G. (2018). Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7132-7141).