本文档定义了英特尔 ® 资源调配技术 (英特尔 ® RDT) 功能集的架构。英特尔 RDT 的目标是提供新的监控和控制级别,以控制 CPU 代理和非 CPU 代理如何使用共享平台资源,例如最后一级缓存 (L3) 和主内存(通常为 DRAM)带宽。监控和分配不一定应用于整个系统,而是应用于资源管理域 (RMD),该域对应于一组共享一组系统资源(例如 L2 缓存容量、L3 缓存容量、内存带宽和 I/O 设备)的代理。资源管理域 (RMD) 由一组 CPU 代理或非 CPU 代理组成。CPU 代理集由一个或多个将 RMID 和/或 CLOS 标签与软件线程关联的逻辑处理器组成。非 CPU 代理包括 PCI Express* (PCIe*)/Compute Express Link (CXL)* 设备和集成加速器,因此广泛涵盖从缓存或内存读取和写入的代理集,但不包括 IA 核心。
摘要 — 硬件数据预取是一种延迟隐藏技术,通过在处理器需要之前将数据块提取到缓存中来缓解内存墙问题。对于高性能的先进数据预取器,由于请求数量的增加,这会增加内存层次结构中的动态和静态能量。提高硬件预取器能效的一种简单方法是预取执行关键路径上的指令。由于基于关键性的数据预取不会显著降低性能;这是解决能效问题的理想方法。我们讨论了现有关键指令检测技术的局限性,并提出了一种新技术,该技术使用重新排序缓冲区占用率作为检测关键指令的指标,并执行特定于预取器的阈值调整。使用我们的检测器,我们实现了最大内存层次结构节能 12.3%,PPF 性能提高 1.4%,平均值如下:(i) SPEC CPU 2017 基准:IPCP 在 L1D 时能耗降低 2.04%,性能降低 0.3%;(ii) 客户端/服务器基准:PPF 时能耗降低 4.7%,性能降低 0.15%;(iii) Cloudsuite 基准:IPCP 在 L1D 时能耗降低 2.99%,性能提高 0.36%。IPCP 和 PPF 是最先进的数据预取器。
摘要 我们提出了 CXL-ANNS,这是一种软硬件协作方法,可实现高度可扩展的近似最近邻搜索 (ANNS) 服务。为此,我们首先通过计算快速链路 (CXL) 将 DRAM 从主机中分离出来,并将所有必要的数据集放入其内存池中。虽然这个 CXL 内存池可以使 ANNS 能够在不损失准确性的情况下处理十亿点图,但我们观察到由于 CXL 的远内存类特性,搜索性能会显著下降。为了解决这个问题,CXL-ANNS 考虑节点级关系并将预计访问最频繁的邻居缓存在本地内存中。对于未缓存的节点,CXL-ANNS 通过了解 ANNS 的图遍历行为预取一组最有可能很快访问的节点。CXL-ANNS 还了解 CXL 互连网络的架构,并让其中的不同硬件组件并行协作搜索最近邻居。为了进一步提高性能,它放宽了邻居搜索任务的执行依赖性,并通过充分利用 CXL 网络中的所有硬件来最大化搜索并行度。我们的实证评估结果表明,与我们测试的最先进的 ANNS 平台相比,CXL-ANNS 的 QPS 提高了 111.1 倍,查询延迟降低了 93.3%。在延迟和吞吐量方面,CXL-ANNS 也分别比仅具有 DRAM(具有无限存储容量)的 Oracle ANNS 系统高出 68.0% 和 3.8 倍。
摘要 - 内部内容可寻址内存(TCAM)一直是缓存,路由器等的关键组件,其中密度,速度,功率效率和可靠性是主要的设计目标。使用了非胆汁记忆(NVM)设备,具有常规的低维能力,但基于SRAM的TCAM设计,但也很密集,但较差,但可靠性较差或更高的功率TCAM设计。同时,还提出了一些使用动态记忆的TCAM设计。尽管动态设计TCAM比CMOS SRAM TCAM更密集,并且比NVM TCAM更可靠,但传统的逐行刷新操作在正常的TCAM活动的干扰瓶颈上升起。因此,本文提出了使用纳米电机力学(NEM)继电器设备的自定义低功率动态TCAM,该中继设备利用一声刷新来解决内存刷新问题。通过使用拟议的新细胞结构来利用独特的NEM继电器特性,提出的TCAM占据了仅3个晶体管的小占地面积(通过后端过程中的两个NEM继电器在顶部集成了两个NEM继电器),这显着超过了基于SRAM-SRAM-SRAM-SRAM-基于SRAM的TCAM的密度。此外,评估表明,拟议的TCAM分别超过了SRAM,RRAM和FEFET TCAM,将写入能效分别提高了2.31倍,131倍和13.5倍。 SRAM,RRAM和FEFET TCAMS分别提高了搜索能量固定产品的12.7倍,1.30倍和2.83倍。
病理学和其他学科正在推动开发人工智能 (AI) 工具,以自动从大型数据缓存 [ 2 ] 中执行评估 [ 1 ],以供临床使用。鉴于放射学 [ 3 , 4 ] 和病理学 [ 5 , 6 ] 超过 50 年的发展,政府对此予以认可(例如英国政府 2019 年的 Topol 审查)。模拟常规病理学工作流程,诸如 [ 7 ] 的技术挑战已证明某些深度学习网络具有同等或更高的性能。数字病理学中的组织学数据 [ 8 ] 是实现自动诊断或辅助诊断的最困难挑战之一。已经提出了多种交互式工具来帮助医疗用户自动进行全幻灯片图像 (WSI) 分析而无需编码,涵盖表型分析 [ 9 ]、分割 [ 10 ] 和 IHC 筛查 [ 11 ] 等领域。这有几种形式,其中最主要的是病理图像的自动解释。人工智能以计算机算法为基础,这些算法查询图像像素并将它们定量映射到代表组织结构或疾病状态的预定义类别中 [ 2 ]。最近的研究 [ 12 – 15 ] 表明,诊断工具或算法的设计通常需要考虑如何使用该工具、它如何适应病理学家既定的工作流程以及其他特定于领域的行为。无论人工智能算法依赖于完全监督还是弱监督/无监督学习,机器学习算法的主要目标都是通过搜索数据中的模式来找到特征值与所需结果(分类或回归模型、一组聚类等)之间的最佳映射 [ 16 ]。除此之外,总会有
摘要:众所周知,共享硬件元素(例如缓存)会引入微架构侧信道泄漏。消除这种泄漏的一种方法是不跨安全域共享硬件元素。然而,即使在无泄漏硬件的假设下,其他关键系统组件(例如操作系统)是否会引入软件引起的侧信道泄漏仍不清楚。在本文中,我们提出了一种新颖的通用软件侧信道攻击 KernelSnitch,针对内核数据结构(例如哈希表和树)。这些结构通常用于存储内核和用户信息,例如用户空间锁的元数据。KernelSnitch 利用了这些数据结构的大小可变的特性,范围从空状态到理论上任意数量的元素。访问这些结构所需的时间取决于元素的数量(即占用率)。这种变化构成了一个定时侧信道,可被非特权的孤立攻击者从用户空间观察到。虽然与系统调用运行时相比,时间差异非常小,但我们演示并评估了可靠地放大这些时间差异的方法。在三个案例研究中,我们表明 KernelSnitch 允许非特权和孤立的攻击者泄露来自内核和其他进程活动的敏感信息。首先,我们演示了传输速率高达 580 kbit/s 的隐蔽通道。其次,我们利用 Linux 在哈希表中使用的特定索引,在不到 65 秒的时间内执行了内核堆指针泄漏。第三,我们演示了网站指纹攻击,F1 分数超过 89%,表明可以使用 KernelSnitch 观察到其他用户程序中的活动。最后,我们讨论了针对与硬件无关的攻击的缓解措施。
北卡罗来纳州布拉格堡 — 当布莱克·奥特纳中校谈到一支历史悠久的弗吉尼亚国民警卫队步兵部队如何再次接受参战训练时,如果人们不拿苹果和西瓜作比较,那就太好了。我们谈论的是来自弗吉尼亚州温彻斯特的第 116 步兵团第 3 营,他们准备在今年夏天的某个时候部署到阿富汗,用一年的时间帮助打击全球反恐战争。那些是苹果。我们谈论的也是同一支第 116 团,在 1944 年 6 月 6 日伟大的诺曼底登陆的前两波攻击中,他们在进攻法国诺曼底的奥马哈海滩时付出了惨重的血汗和泪水的代价。那些是西瓜。奥特纳是第 3 营的营长,他自 2002 年 9 月以来一直带领 570 名国民警卫队士兵,他们非常清楚自己的军团在美国军事史上的地位。但奥特纳喜欢从客观的角度看待问题。他知道,一个营参加阿富汗的持久自由行动与整个军团面对世界历史上最大规模的入侵——霸王行动,这两者之间存在巨大差异。“我真的很难将我们准备做的事情与诺曼底登陆日相提并论,”奥特纳 4 月初在这里说,当时他的士兵正在训练,准备在一个国家服役,在 2001 年 9 月 11 日针对阿富汗的袭击事件发生后,美国军队一直在搜寻恐怖分子和武器藏匿处。
摘要 - 基于CPU的推理可以作为外芯片加速器的拟合作用。在这种情况下,由于其高效率,新兴的矢量体系结构是一个有前途的选择。然而,卷积算法和硬件实现的庞大设计空间使设计选项的选择具有挑战性。在本文中,我们介绍了针对基于CPU的卷积神经网络(CNN)推断的共同设计的未来矢量体系结构的持续研究,重点是IM2Col+Gemm和Winograd内核。使用GEM5模拟器,我们探讨了几个硬件微体系特征的影响,包括(i)向量泳道,(ii)向量长度,(iii)缓存尺寸和(iv)将向量单元集成到CPU管道中的选项。In the context of im2col+GEMM, we study the impact of several BLIS-like algorithmic optimizations such as (1) utilization of vector registers, (2) loop unrolling, (3) loop reorder, (4) manual vectorization, (5) prefetching, and (6) packing of matrices, on the RISC-V Vector Extension and ARM-SVE ISAs.我们使用Yolov3和VGG16网络模型进行评估。我们的共同设计研究表明,BLIS样的优化对所有类型的矢量微体系结构都不是有益的。我们还证明,与我们优化的CNN内核相比,较长的矢量长度(至少为8192位)和较大的缓存(256MB)可以提高5倍的性能,而512位和1MB的载体长度则可以提高性能。我们的共同设计研究还表明,与IM2Col+GEMM相比,Winograd需要较小的缓存尺寸(高达64MB)。在Winograd的背景下,我们通过使用每个通道的8×8图块来介绍跨输入/输出通道之间的新颖的瓷砖并行方法,以对向量长度不可知(VLA)体系结构进行载体化算法。我们的方法利用了较长的向量长度并提供了高内存重复使用,与我们在Fujitsu A64FX处理器上优化的IM2Col+Gemm方法相比,对于具有3×3内核大小的非弯曲卷积层的性能提高了2.4倍。索引术语 - CNN,GEMM,Winograd,长量架构,向量长度不可知论ISA,共同设计,优化
增强学习(RL)是代理通过与经验数据集进行交互来学习最佳行为的过程,所有这些都旨在最大化奖励信号。rl算法通常在现实世界应用中面临性能挑战,尤其是在使用广泛而多样的数据集培训时。例如,诸如自动驾驶汽车之类的应用程序包括感官数据,Dy-Namic的交通信息(包括其他车辆和行人的运动),关键的风险评估以及各种代理行动。因此,由于对大量体验数据集进行了抽样,因此RL训练可能完全不适合硬件缓存,并且在内存和计算单元(例如CPU,GPU)之间所需的频繁数据传输,尤其是批量批次更新。这种瓶颈会产生大量的执行潜伏期,并影响整体培训时间。为了减轻最近提出的以内存为中心的计算范例(例如内存中的处理(PIM)),可以通过执行内存设备内的计算来解决与内存延迟相关的瓶颈。在本文中,我们介绍了Swiftrl,该文章探讨了现实世界中PIM体系结构加速流行的RL工作负载及其培训阶段的潜力。我们在Upmem Pim系统上调整了RL算法,即Tabular Q-Learning和SARSA,并首先使用两种不同的环境和三种采样策略观察他们的性能。此外,我们开发和评估了针对硬件优化的Q学习的多代理版本,并说明了如何使用多个代理来利用PIM进行算法缩放。然后,我们通过近似Q值更新功能(由于运行时库使用的运行时指令仿真而避免了高性能成本),并结合了基础算法所需的某些PIM特异性例程,从而实现了RL适应PIM期间的性能选择策略。我们使用Upmem硬件在OpenAI健身房环境上实验评估RL工作负载。我们的结果表明,当PIM核心数量增加16×(125至2000)时,性能的近线性缩放比例为15倍。我们还将我们的PIM实施与Intel(R)Xeon(R)Silver 4110 CPU和NVIDIA RTX 3090 GPU进行了比较,并在Upmem PIM系统上观察到具有不同实现的UPMEM PIM系统。
2,3,4学生,网络安全系,Paavai工程学院,Namakkal Abstract Cloud Computing对虚拟化的依赖引入了安全风险,尤其是侧道通道攻击,这些攻击利用共享资源来推断敏感数据。这些攻击利用CPU缓存,内存访问模式,时机变化和功耗来从共同定位的虚拟机(VMS)中提取机密信息。本文在虚拟化的云环境中分类了新兴的侧道渠道威胁,分析攻击向量,例如基于缓存的基于内存,基于内存,功率分析,时机和基于网络的侧向通道攻击。它还评估了现有的对策,包括基于硬件的隔离,软件防御和管理程序级别的安全性增强功能。此外,本文探讨了跨VM侧向通道攻击的现实案例研究,并提出了未来的缓解策略,例如AI驱动的异常检测,量子弹性加密和安全的硬件创新。解决这些漏洞对于确保数据机密性和对多租户云基础架构的信任至关重要。加强针对侧通道攻击的防御能力将在云计算的未来安全性中起关键作用。关键字:云安全性,侧渠道攻击,管理程序安全性,多租户云环境简介云计算通过提供可扩展,成本效益和需求计算资源来改变现代IT基础架构。各个行业的组织越来越依赖云服务来存储,处理和管理敏感数据。在云计算的核心上是虚拟化,它使多个虚拟机(VM)能够通过管理程序在共享的物理硬件上操作。虚拟化增强了资源利用率和运营效率,但它也引入了安全风险,尤其是侧通道攻击。侧通道攻击通过共享硬件资源而不是利用软件漏洞来利用间接信息泄漏。在多租户云环境中,攻击者可以通过分析缓存访问模式,内存交互,时机变化,功耗或网络流量来提取敏感数据。与通常需要直接访问目标系统的常规攻击不同,侧渠道攻击使对手可以从共同居民VM中推断机密信息,而不会违反传统的安全机制。日益增长的基础设施 - AS-A-Service(IAAS)和平台为AS-AS-Service(PAAS)模型增加了侧向通道攻击的风险,因为不同的租户经常共享相同的物理