增强学习(RL)是代理通过与经验数据集进行交互来学习最佳行为的过程,所有这些都旨在最大化奖励信号。rl算法通常在现实世界应用中面临性能挑战,尤其是在使用广泛而多样的数据集培训时。例如,诸如自动驾驶汽车之类的应用程序包括感官数据,Dy-Namic的交通信息(包括其他车辆和行人的运动),关键的风险评估以及各种代理行动。因此,由于对大量体验数据集进行了抽样,因此RL训练可能完全不适合硬件缓存,并且在内存和计算单元(例如CPU,GPU)之间所需的频繁数据传输,尤其是批量批次更新。这种瓶颈会产生大量的执行潜伏期,并影响整体培训时间。为了减轻最近提出的以内存为中心的计算范例(例如内存中的处理(PIM)),可以通过执行内存设备内的计算来解决与内存延迟相关的瓶颈。在本文中,我们介绍了Swiftrl,该文章探讨了现实世界中PIM体系结构加速流行的RL工作负载及其培训阶段的潜力。我们在Upmem Pim系统上调整了RL算法,即Tabular Q-Learning和SARSA,并首先使用两种不同的环境和三种采样策略观察他们的性能。此外,我们开发和评估了针对硬件优化的Q学习的多代理版本,并说明了如何使用多个代理来利用PIM进行算法缩放。然后,我们通过近似Q值更新功能(由于运行时库使用的运行时指令仿真而避免了高性能成本),并结合了基础算法所需的某些PIM特异性例程,从而实现了RL适应PIM期间的性能选择策略。我们使用Upmem硬件在OpenAI健身房环境上实验评估RL工作负载。我们的结果表明,当PIM核心数量增加16×(125至2000)时,性能的近线性缩放比例为15倍。我们还将我们的PIM实施与Intel(R)Xeon(R)Silver 4110 CPU和NVIDIA RTX 3090 GPU进行了比较,并在Upmem PIM系统上观察到具有不同实现的UPMEM PIM系统。
动机:测序技术的最新进展强调了序列分析算法和工具在基因组学和医疗保健研究中的关键作用。尤其是,序列对齐是许多序列分析管道中的基本构建块,并且在执行时间和内存使用方面经常是性能瓶颈。经典序列比对算法基于动态编程,通常需要相对于序列长度进行二次时间和内存。结果,经典序列比对算法无法随着序列长度的增加而扩展,并且由于数据移动惩罚而迅速成为内存结合。结果:内存处理(PIM)是一种新兴的体系结构范式,试图通过使计算更接近数据来减轻数据移动惩罚来加速内存结合的算法。这项工作介绍了BIMSA(双向内存序列对齐),这是最先进的序列对齐算法BIWFA(双向波前对齐)的PIM设计和实现,该算法biwfa(双向波前对齐),为生产的PIM Architection(Upmem)结合了新的硬件功能优化。bimsa支持对齐序列最多100K基础,超过了状态PIM实现的局限性。首先,与序列比对算法的最先进的PIM实现相比,BIMSA达到高达22.24×(平均为11.95×)的加速度。第二,与BIWFA的最高表现多核CPU实现相比,达到高达5.84×(平均为2.83×)的加速度。联系人:Alejandro.alonso1@bsc.es第三,BIMSA具有内存中计算单元数量的线性可伸缩性,可以通过配备更多计算单元的PIM体系结构进行进一步的性能改进,并实现高达9.56×x(平均4.7倍)的速度。可用性:代码和文档可在https://github.com/ alejandroamarin/bimsa上公开获得。