Loading...
机构名称:
¥ 1.0

摘要 - 基于CPU的推理可以作为外芯片加速器的拟合作用。在这种情况下,由于其高效率,新兴的矢量体系结构是一个有前途的选择。然而,卷积算法和硬件实现的庞大设计空间使设计选项的选择具有挑战性。在本文中,我们介绍了针对基于CPU的卷积神经网络(CNN)推断的共同设计的未来矢量体系结构的持续研究,重点是IM2Col+Gemm和Winograd内核。使用GEM5模拟器,我们探讨了几个硬件微体系特征的影响,包括(i)向量泳道,(ii)向量长度,(iii)缓存尺寸和(iv)将向量单元集成到CPU管道中的选项。In the context of im2col+GEMM, we study the impact of several BLIS-like algorithmic optimizations such as (1) utilization of vector registers, (2) loop unrolling, (3) loop reorder, (4) manual vectorization, (5) prefetching, and (6) packing of matrices, on the RISC-V Vector Extension and ARM-SVE ISAs.我们使用Yolov3和VGG16网络模型进行评估。我们的共同设计研究表明,BLIS样的优化对所有类型的矢量微体系结构都不是有益的。我们还证明,与我们优化的CNN内核相比,较长的矢量长度(至少为8192位)和较大的缓存(256MB)可以提高5倍的性能,而512位和1MB的载体长度则可以提高性能。我们的共同设计研究还表明,与IM2Col+GEMM相比,Winograd需要较小的缓存尺寸(高达64MB)。在Winograd的背景下,我们通过使用每个通道的8×8图块来介绍跨输入/输出通道之间的新颖的瓷砖并行方法,以对向量长度不可知(VLA)体系结构进行载体化算法。我们的方法利用了较长的向量长度并提供了高内存重复使用,与我们在Fujitsu A64FX处理器上优化的IM2Col+Gemm方法相比,对于具有3×3内核大小的非弯曲卷积层的性能提高了2.4倍。索引术语 - CNN,GEMM,Winograd,长量架构,向量长度不可知论ISA,共同设计,优化

通过...

通过...PDF文件第1页

通过...PDF文件第2页

通过...PDF文件第3页

通过...PDF文件第4页

通过...PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥1.0
2018 年

...

¥1.0
2025 年

...

¥1.0
2023 年

...

¥1.0
2024 年
¥1.0
2025 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2023 年
¥2.0
2024 年
¥18.0
2024 年
¥1.0
2024 年

...

¥3.0
2024 年
¥1.0
2024 年
¥1.0
2025 年

...

¥1.0
2025 年
¥1.0
2024 年

...

¥2.0
1900 年
¥1.0
1900 年
¥1.0
2024 年

...

¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥3.0
2024 年

...

¥3.0
2025 年
¥1.0
2024 年

...

¥1.0
2024 年
¥1.0