摘要:在人工智能的时代,卷积神经网络(CNN)正在成为一种用于图像处理的强大技术,例如去核,超分辨率甚至样式转移。他们表现出很大的潜力,可以将下一代相机和展示带入我们的日常生活。但是,传统的CNN加速器很难在边缘生成超高分辨率视频,因为它们的大量急速带宽和功耗。例如,用于降级的高级FFDNET可能需要131 GB/s的DRAM带宽,而在4K UHD 30FPS处则需要106个计算顶部。在这次演讲中,我将介绍我们最近的两部作品,以应对DRAM带宽和功耗的挑战。首先,我将讨论图像处理CNN带来的图像二线革命并阐述其设计挑战;为了清楚起见,他们与识别CNN的差异将得到强调。然后,我将以整体方式介绍我们的第一份作品 - ECNN [Micro'19],共同优化推理流,网络模型,指令集和处理器设计。尤其是,具有面向硬件的ERNET模型的基于块的推理流可以支持FFDNET级DINOISING和SRRESNET级超分辨率,在4K UHD 30 FPS下使用小于2 GB/s的DRAM带宽。最后,我将介绍我们的第二件作品(ISCA'21],它利用了Ring Argebra的常规稀疏度,以实现近乎最大的硬件节省和优雅的卷积发动机质量降解。布局结果表明,可以分别使用3.76 W和2.22 W进行等效的41个高位计算,分别以40 nm的技术为50%(无质量下降)和75%和75%(PSNR下降的0.11 dB)。
主要关键词