摘要 我们提出了 CXL-ANNS,这是一种软硬件协作方法,可实现高度可扩展的近似最近邻搜索 (ANNS) 服务。为此,我们首先通过计算快速链路 (CXL) 将 DRAM 从主机中分离出来,并将所有必要的数据集放入其内存池中。虽然这个 CXL 内存池可以使 ANNS 能够在不损失准确性的情况下处理十亿点图,但我们观察到由于 CXL 的远内存类特性,搜索性能会显著下降。为了解决这个问题,CXL-ANNS 考虑节点级关系并将预计访问最频繁的邻居缓存在本地内存中。对于未缓存的节点,CXL-ANNS 通过了解 ANNS 的图遍历行为预取一组最有可能很快访问的节点。CXL-ANNS 还了解 CXL 互连网络的架构,并让其中的不同硬件组件并行协作搜索最近邻居。为了进一步提高性能,它放宽了邻居搜索任务的执行依赖性,并通过充分利用 CXL 网络中的所有硬件来最大化搜索并行度。我们的实证评估结果表明,与我们测试的最先进的 ANNS 平台相比,CXL-ANNS 的 QPS 提高了 111.1 倍,查询延迟降低了 93.3%。在延迟和吞吐量方面,CXL-ANNS 也分别比仅具有 DRAM(具有无限存储容量)的 Oracle ANNS 系统高出 68.0% 和 3.8 倍。
Nantero, Inc. 的 NRAM ® 内存技术是一种非易失性、字节寻址的光纤连接内存层解决方案,可满足对更好的 Optane ™ 替代品的需求。NRAM 是 DRAM 和 NAND Flash 的颠覆性替代品,可以降低成本,具有更好的功率、延迟和性能特性,提供 EMP 保护和 RadHard 功能,并为 2025-2030 年及以后的系统架构和平台增强提供未来保障。NRAM 比传统内存技术消耗更少的能源,从而降低碳排放,同时还支持未来的计算能力变化,例如 CXL、内存处理、分解、边缘计算等。当今内存系统中的大部分电力都用于刷新;NRAM 可以通过兼容 DDR5 的部件消除这一问题,为 DoE、整个 USG 和整个行业带来立竿见影的巨大胜利。 Nantero 需要政府支持资金用于技术创新,并获得使用政府资金为研究人员和小公司建造的新 EUV 晶圆厂的权限,以鼓励像 Nantero 这样的创新。有了这种至关重要的支持,晶圆厂访问和准备就绪之间的差距可以弥合,即 Nantero 等创新者目前需要的东西与大型成熟公司在没有政府参与和监督的情况下定期向创新者提供的有限现实之间的差距。一旦提供这种晶圆厂访问和支持,Nantero 的 NRAM 内存技术将发挥其成本和性能优势,从而颠覆 DRAM 和 NAND 闪存,为能源部、美国政府和行业现在和未来几年提供广泛的功能。
前沿人工智能 (AI)/图形/移动处理器、动态随机存取存储器 (DRAM) 器件和异构集成 IC 堆栈都面临着同样的热管理挑战,即被测器件 (DUT) 太热而无法测试。即使在室温晶圆卡盘设置下,移动片上系统 (SoC) 器件结温也可能达到 100°C 至 150°C 之间。对于全晶圆 DRAM 测试,单次着陆测试期间可能施加高达 2,000W 的功率。最近的技术路线图显示散热要求甚至更高,最高可达 3,500W。随着异构集成芯片堆栈的兴起,测试单元热管理变得更加复杂。在测试堆叠有多个芯片的基片时,每个硅片面积的热负荷会增加一个数量级。如果不控制温度,可能会导致探针烧毁、器件损坏和测试结果不准确。除非先测量温度,否则无法控制温度。 ATT-Systems(FormFactor 旗下公司)的低热阻 (LTR) 晶圆夹盘技术在热夹盘上应用了多个温度传感器,以准确检测 DUT 温度并调节散热以达到所需的测试温度。LTR 在生产测试中表现出良好的效果,解决了“温度过高而无法测试”的难题。
在去年夏季会议成功举办的基础上,FMS 2025 继续扩大其范围。DRAM、归档、磁带、硬盘驱动器、基于 DNA 的存储、CXL、UCIe、汽车、太空数据中心、CHIPS 法案和 AI/ML;专业发展系列;对人工智能的日益关注;行业重量级人物的主题演讲;还有更多内容在 FMS 2025 上等着您。FMS 为您提供了一个扩大知名度、推出新产品和服务、争夺奖项、获得新闻报道和发展新关系的场所。
传统的基于电荷的存储器,例如动态随机存取存储器 (DRAM) 和闪存,正在接近其扩展极限。各种基于电阻的存储器,例如相变存储器 (PCM)、磁性随机存取存储器 (MRAM) 和电阻随机存取存储器 (RRAM),由于其非挥发性、速度快、功耗低和尺寸小,可能实现高密度集成,长期以来一直被视为新兴存储器应用。最近,它们也被广泛研究用作神经形态计算的忆阻器,与数字存储器应用相比,神经形态计算对其电阻开关特性的要求截然不同。在过去十年中,从材料和物理机制到设备和神经形态系统,该领域取得了巨大进步。
1. 简介 当今社会,微电子技术被广泛应用于各种设备中。电子设备在世界范围内的快速普及,促使人们开始审视新技术,尤其是存储器。存储器越来越多地用于生物、无线和可实现设备中。存储器的各个部分在现代 VLSI 系统中组织起来。半导体存储器是 VLSI 架构不可或缺的一部分。RAM(随机存取存储器)有两种形式:SRAM(静态随机存取存储器)和 DRAM(动态随机存取存储器)[2]。动态一词表示理想存储电容器的电荷必须定期刷新,这就是 DRAM 很少使用的原因。为了提高稳定性和功耗,已经提出了许多SRAM单元设计,但传统的6T单元仍然提供了尺寸和性能的良好平衡,因为传统的6T单元具有非常紧凑和简单的结构,但是其操作电压最小并且受到相互冲突的读写稳定性要求的限制,因此它不用于超低电压操作。有几种针对存储器单元的设计提案以提高速度和功率,其中一种技术专注于提高SNM的低功耗(其他存储器配置(7T,8T,9T)各有优缺点)[1]。六个MOSFET组成一个典型的SRAM单元。四个晶体管(PM0,PM1,NM0和NM1)存储一位并形成两个交叉耦合的反相器。有两种稳定状态,用数字 0 和 1 表示。传统的 6T 单元很简单,但在低压下稳定性较差,因此我们努力通过各种方法提高其读写稳定性,例如双轨电源、负位线、带动态反馈管理的单位线等。然而,为了正常运行,6T SRAM 的
16 Stephen Nellis,“AMD 赢得近三分之一的处理器市场,Arm 的攀升放缓:分析师报告”,路透社,2023 年 2 月 9 日,https://www.reuters.com/technology/amd-wins-nearly-third-processor-market-arms-climb-slows-analyst-report- 2023-02-09/。17 数据适用于独立 GPU(GPU 与处理器分开)。请参阅 Wallstreetzen,“Nvidia Corp 统计数据和事实”,https://www.wallstreetzen.com/stocks/us/nasdaq/nvda/statistics。18 Stephen Nellis,“AMD 赢得近三分之一的处理器市场,Arm 的攀升放缓:分析师报告”,路透社,2023 年 2 月 9 日。19 Wallstreetzen,“Nvidia Corp 统计数据和事实”;见脚注 17。20 同上。21 数据适用于动态随机存取存储器 (DRAM),‘2011 年至 2022 年全球 DRAM 制造商收入份额(按季度划分),Statista,https://www.statista.com/statistics/271726/global-market-share-held-by-dram-chip-vendors- since-2010/。22 同上。23 同上。24 ‘2020 年上半年全球人工智能 (AI) 服务器供应商市场份额’,Statista,https://www.statista.com/statistics/1227556/ai-server-vendor-market-share/。 25 Doug Black,“微软在 Azure 上的大型 AI 超级计算机:285,000 个 CPU 核心、10,000 个 GPU”,HPC Wire,2020 年 5 月 20 日,https://www.hpcwire.com/2020/05/20/microsofts-ai-supercomputer-on-azure-combinations-of-perceptual-domains/。26 Greg Brockman,“微软投资 Openai 并与 Openai 合作,支持我们构建有益的 AGI”,Open AI,2019 年 7 月 22 日,https://openai.com/blog/microsoft-invests-in-and-partners-with-openai。27 Dina Bass,“OpenAI 需要数十亿美元来维持 ChatGPT 的运行。进入微软”,彭博社,2023 年 1 月 26 日,https://www.bloomberg.com/news/articles/2023-01-26/microsoft-openai-investment-will-help-keep-chatgpt-online。
摘要 — 混合存储器系统由新兴的非易失性存储器 (NVM) 和 DRAM 组成,已被提出用于满足应用程序日益增长的存储器需求。相变存储器 (PCM)、忆阻器和 3D XPoint 等新兴 NVM 技术具有更高的容量密度、最小的静态功耗和更低的每 GB 成本。然而,与 DRAM 相比,NVM 具有更长的访问延迟和有限的写入耐久性。两种存储器类别的不同特性指向包含多种主存储器类别的混合存储器系统的设计。在新架构的迭代和增量开发中,模拟完成的及时性对于项目进展至关重要。因此,需要一种高效的模拟方法来评估不同混合存储器系统设计的性能。混合存储器系统的设计探索具有挑战性,因为它需要模拟整个系统堆栈,包括操作系统、内存控制器和互连。此外,用于内存性能测试的基准应用程序通常具有更大的工作集,因此需要更长的模拟预热期。本文提出了一种基于 FPGA 的混合存储系统仿真平台。我们的目标是移动计算系统,该系统对能耗敏感,并且可能会采用 NVM 来提高能效。在这里,由于我们的平台专注于混合存储系统的设计,因此我们利用板载硬 IP ARM 处理器来提高模拟性能,同时提高结果的准确性。因此,用户可以使用 FPGA 逻辑元件实现其数据放置/迁移策略,并快速有效地评估新设计。结果表明,与软件 Gem5 相比,我们的仿真平台在模拟时间上加快了 9280 倍。索引术语 — 硬件仿真、FPGA 加速器、内存系统、NVM