近年来,卷积神经网络(CNN)凭借其出色的特征提取能力在图像识别、工业故障检测、无人驾驶等领域得到了广泛的应用。然而,传统的 CNN 模型 [1, 2, 3] 具有大量的参数,难以部署在资源受限的嵌入式设备上。因此,随着 CNN 的应用需求不断增加,如何简化 CNN 模型并有效地将其部署到嵌入式设备上成为了新的研究热点。使用轻量级 CNN 模型,例如 Xception [4]、MobileNet [5, 6, 7] 和 ShuffleNet [8],是在准确率损失不大的情况下显着减少参数数量的有效方法。此外,使用低比特数据量化方法[9,10,11]可以将32比特数据量化为8比特甚至更低,大大减小了CNN模型的大小。因此,结合这两种方法对轻量级CNN模型进行低比特数据量化,为实现CNN模型提供了一种计算友好的算法解决方案。在各类嵌入式设备中,FPGA在功耗和灵活性之间提供了更好的权衡,成为实现CNN的一种有吸引力的解决方案。然而,轻量级CNN模型包含多种核大小,这对基于FPGA的CNN加速器的设计提出了挑战。大多数现有设计[12,13,14,15,16,17,18,19,20,21]可以有效处理具有某些特定核大小的卷积。然而,
主要关键词