8 Mflop/s 是一种执行速率,每秒执行数百万次浮点运算。每当使用此术语时,它都是指 64 位浮点运算,运算将是加法或乘法。Gflop/s 指每秒数十亿次浮点运算,而 Tflop/s 指每秒数万亿次浮点运算。
摘要 — 低功耗(1-20 mW)近传感器计算的最新应用需要采用浮点算法来协调高精度结果和宽动态范围。在本文中,我们提出了一种低功耗多核计算集群,该集群利用跨精度计算的细粒度可调原理,以最低的功率预算为近传感器应用提供支持。我们的解决方案基于开源 RISC-V 架构,将并行化和子字矢量化与专用互连设计相结合,能够在内核之间共享浮点单元 (FPU)。在此架构的基础上,我们提供了全面的软件堆栈支持,包括并行低级运行时、编译工具链和高级编程模型,旨在支持端到端应用程序的开发。我们对周期精确的 FPGA 仿真器上的跨精度集群的设计空间进行了详尽的探索,并改变了内核和 FPU 的数量以最大限度地提高性能。正交地,我们进行了垂直探索,以确定在非功能性要求(工作频率、功率和面积)方面最有效的解决方案。我们对一组代表近传感器处理域的基准进行了实验评估,并通过对功耗进行布局布线后分析来补充时序结果。与最先进的技术相比,我们的解决方案在能源效率方面优于竞争对手,在单精度标量上达到 97 Gflop/s/W 的峰值,在半精度矢量上达到 162 Gflop/s/W。最后,一个实际用例证明了我们的方法在满足精度约束方面的有效性。
摘要 近年来,异物闯入铁路和机场跑道事件频发,这些物体包括行人、车辆、动物和杂物等。本文介绍了一种改进的YOLOv5架构,结合FasterNet和注意力机制,增强对铁路和机场跑道上异物的检测。本研究提出了一个新的数据集AARFOD(航空和铁路异物检测),结合了两个用于检测航空和铁路系统中异物的公共数据集,旨在提高异物目标的识别能力。在这个大型数据集上的实验结果表明,与基线YOLOv5模型相比,所提出的模型性能有显著提升,降低了计算要求。改进后的YOLO模型的精度显著提高了1.2%,召回率提高了1.0%,mAP@.5提高了0.6%,而mAP@.5-.95保持不变。参数减少了约25.12%,GFLOP减少了约10.63%。在消融实验中发现,FasterNet模块可以显著减少模型的参数数量,同时注意力机制的引用可以减缓轻量化带来的性能损失。