通过...___XiaoMi-AI 助力科研平台

通过...

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

通过...

¥ 1.0

热度

摘要 - 基于CPU的推理可以作为外芯片加速器的拟合作用。在这种情况下，由于其高效率，新兴的矢量体系结构是一个有前途的选择。然而，卷积算法和硬件实现的庞大设计空间使设计选项的选择具有挑战性。在本文中，我们介绍了针对基于CPU的卷积神经网络（CNN）推断的共同设计的未来矢量体系结构的持续研究，重点是IM2Col+Gemm和Winograd内核。使用GEM5模拟器，我们探讨了几个硬件微体系特征的影响，包括（i）向量泳道，（ii）向量长度，（iii）缓存尺寸和（iv）将向量单元集成到CPU管道中的选项。In the context of im2col+GEMM, we study the impact of several BLIS-like algorithmic optimizations such as (1) utilization of vector registers, (2) loop unrolling, (3) loop reorder, (4) manual vectorization, (5) prefetching, and (6) packing of matrices, on the RISC-V Vector Extension and ARM-SVE ISAs.我们使用Yolov3和VGG16网络模型进行评估。我们的共同设计研究表明，BLIS样的优化对所有类型的矢量微体系结构都不是有益的。我们还证明，与我们优化的CNN内核相比，较长的矢量长度（至少为8192位）和较大的缓存（256MB）可以提高5倍的性能，而512位和1MB的载体长度则可以提高性能。我们的共同设计研究还表明，与IM2Col+GEMM相比，Winograd需要较小的缓存尺寸（高达64MB）。在Winograd的背景下，我们通过使用每个通道的8×8图块来介绍跨输入/输出通道之间的新颖的瓷砖并行方法，以对向量长度不可知（VLA）体系结构进行载体化算法。我们的方法利用了较长的向量长度并提供了高内存重复使用，与我们在Fujitsu A64FX处理器上优化的IM2Col+Gemm方法相比，对于具有3×3内核大小的非弯曲卷积层的性能提高了2.4倍。索引术语 - CNN，GEMM，Winograd，长量架构，向量长度不可知论ISA，共同设计，优化

添加pdf代下载 VIP点击下载文件

通过...

主要关键词

设计空间输入提高向量设计的设计研究 Winograd 特征的设计 CNN 较小的方法芯片高性能性能提高卷积较大的模拟器处理器体系结构神经网络结构的网络模型矢量 GEMM 优化有益的 CPU 研究高效率输出通道有前途的 IM2Col 长度加速器提高性能

通过...PDF文件第1页

通过...PDF文件第2页

通过...PDF文件第3页

通过...PDF文件第4页

通过...PDF文件第5页

可下载资源数量

已经购买

下载数量：1

通过...

通过...

相关文件推荐

在...

An ...

...

...

...

在...

在...

可以在...

通过...

在...

与...

在两个...

...

由于...

在...

...

在...

...

与...

关于...

...

在...

在...

在...

高 - ...

与...

...

在...

...

S- ...

XiaoMi-AI