Faster neural networks straight from jpeg笔记
Introduction
JPEG是常见的图片保存形式,它实际上保存的是图像DCT变换后的低频系数,而目前CNN都是对RGB张量卷积,需要经历一次DCT->RGB的转换,如果直接对DCT系数操作就可以节省时间,达到加速的效果。本文实践了在保证性能的前提下加速。
Method
考虑如何将DCT系数组成的tensor送入CNN,作者主要考虑了特征图对齐。
Fig1
从RGB变换得到YCbCr三通道通常不是相同大小,一般亮度通道Y会更大,如Fig1(a)所示,所以需要对亮度和色度通道分别设计两种不同的变换策略T1&T2。作者尝试了三种思路:upsampling,downsampling,late-concat。其中对Y下采样到与色度通道同大小会导致精度下降,所以不再讨论。Upsampling具体操作如Fig2 b.所示,对色度通道做上采样后达到与Y相同的大小。Late-Concat采取了先卷积到相同大小再拼接。两种方法的区别就在于对齐是由卷积还是上采样完成。
Fig2 特征图对齐方法示意图
Results
为了证明DCT变换的有效性,作者尝试将88和44的DCT系数直接投入网络训练,观察Fig3可知对应的DCT-frozen,DCT-frozen2都取得了与其他方法相近的结果。且根据Fig4 DCT方法可以在运算速度和准确率之间取得较好的平衡。
Fig 3 不同方法准确率对比图
Fig4 FLOP对比图
Comparison
Learning in the frequency相比这个方法的改进在于,将YCbCr直接变换到相同大小,便于后续对整个tensor作统一处理,简化了本文方法前期分通道处理的复杂性。其次,Learning…借鉴了Senet的思想,借助门机制剔除冗余Channel进一步简化网络。最后,Learning..还将DCT方法推广到了实例分割邻域,证明了该方法的泛化性。如果仅就分类任务准确率而言,它相比本文的提升并不大。
而且Learning…中用于对比的模型是88,不是本文作者实验结果最好的44DCT模型。
Conclusion
最后Learning…提出了使用DCT的另一个优势是通过合理选择DCT核的大小,从而允许更大的RGB输入,但本文是直接对JPEG编码的结果做处理,不涉及RGB。
频域学习在准确率上虽然有微小提升,相比传统RGB卷积优势不大,其主要贡献在于提升运算速度。
Reference
[1] Gueguen, L., Sergeev, A., Kadlec, B., Liu, R., & Yosinski, J. (2018). Faster neural networks straight from jpeg. Advances in Neural Information Processing Systems, 31, 3933-3944.
[2] Xu, K., Qin, M., Sun, F., Wang, Y., Chen, Y. K., & Ren, F. (2020). Learning in the frequency domain. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1740-1749).
[3] Hu, J., Shen, L., & Sun, G. (2018). Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7132-7141).