对于高性能计算,希望从整体SOC中分解缓存存储器,并通过异源集成技术重新整合它。将缓存从整体SOC中重新定位会导致降低晚期硅死模尺寸,从而导致较高的产量和较低的成本。在这项研究中,我们评估了使用DECA模制的M-Series™嵌入式缓存扇出溶液之间高端3D硅互连解决方案和低端基板溶液之间差距的方法。deca的M系列芯片首先面对FOWLP平面结构是一个理想的平台,用于构建嵌入式插入器,用于处理器芯片,缓存内存和深沟槽电容器的异质集成。deca的自适应模式®允许扩展到处理器chiplet和缓存内存之间的高密度互连。考虑了嵌入式缓存插波器的三种不同配置。垂直堆叠的面对面配置最小化处理器和高速缓存之间的互连长度,而横向配置为铜堆积的铜堆积提供了铜的互连,从而可以进一步缩放互连间距。这两种配置都有其特定的好处和缺点,这些作品在这项工作中详细描述了。关键词自适应图案,嵌入式缓存插入器,扇出晶圆级包装,异质集成,高性能计算,M系列
摘要 - 作为共享记忆多核的核心计数不断增加,设计高性能协议的设计越来越困难,这些协议可以提供高性能而不会增加复杂性和成本。特别是,共享一组内核经常读取和写入共享变量的模式很难有效地支持。因此,程序员最终会调整其应用程序以避免这些模式,从而损害共享内存的可编程性。为了解决这个问题,本文使用最近提供的片上无线网络技术来增强常规的基于无效的基于无效的目录高速缓存相干协议。我们称之为生成的协议widir。widir通过有线和无线相干交易在给定线路之间基于访问模式以程序员透明方式进行过渡。在本文中,我们详细描述了协议过渡。此外,使用飞溅和PARSEC应用程序的评估表明,Widir大大减少了应用程序的存储器失速时间。结果,与常规目录协议相比,对于64核运行,Widir平均将应用程序的执行时间缩短了22%。此外,Widir更可扩展。这些好处是通过非常适中的功率成本获得的。索引条款 - 芯片上的无线网络,目录缓存相干协议
本文介绍了一种创新的推理时间方法“密钥形式”,以减轻与KV高速缓存大小相关的挑战。密钥形式利用了以下观察结果,即生成推断中大约90%的注意力重点集中在特定的令牌子集上,称为“键”代币。密钥形式仅通过使用新颖的分数函数识别这些关键令牌来保留KV缓存中的密钥令牌。这种方法降低了KV缓存大小和内存带宽的使用情况,而不会损害模型精度。我们在三个基础模型中评估了KeyFormer的性能:使用各种位置嵌入算法的GPT-J,Cerebras-GPT和MPT。我们的评估使用各种任务,重点是摘要和涉及扩展上下文的对话任务。我们表明,密钥形式可将推理潜伏期降低2.1倍,并将令牌生成吞吐量提高2.4倍,同时保持模型的准确性。
摘要:遗传算法(GA)比其他方法(例如梯度下降或随机搜索)更有用,尤其是对于具有许多局部最小值和Maxima的非不同的函数,例如梯度下降或随机搜索。标准GA方法的缺点之一是需要设置许多超参数,并且基于复杂规则而不是更直观的模糊规则,选择压力是基于复杂的规则。通过模糊逻辑调整此类参数的遗传算法的变体,以使参数更新原理更容易解释,构成模糊遗传算法(FGAS)的类别。本文提出了对具有N个特性和自动生成规则的两个相对模糊遗传算法(FGA)的修改,以及旨在改善模拟运行时的计算优化。在基准功能(Ackley,Griewank,Rastrigin和Schwefel)上评估了修改,并且选择了每个修改方法的最佳设置(即成员资格功能,术语数,T-norm和t-conorm)。将结果与标准GA和粒子群优化(PSO)进行了比较。结果表明,FGA方法可以使用缓存和最近的邻居方法进行优化,而不会失去准确性和收敛性。证明这两种修改后的方法在统计学上的表现明显比基线方法差。结果,我们提出了对现有两种算法的两种优化:通过缓存和测试其性能,通过规则生成和最近的邻居估算进行外推。
摘要 - 我们在此工作边缘计算(EC)中考虑在多租户环境中:资源所有者,即网络运营商(NO),虚拟资源使资源虚拟化,并允许第三方服务提供商(SPS-租户)运行他们的服务,这可以多样化,并且具有异质要求。由于确保保证,NO无法观察到已加密的SPS的性质。这使资源分配决策具有挑战性,因为它们必须仅基于观察到的监视信息进行。我们专注于一个特定资源,即缓存空间,部署在某个边缘节点中,例如一个基站。我们研究了关于如何在几个SP中分区缓存的决定,以最大程度地减少上游流量。我们的目标是使用纯粹的数据驱动的,无模型的增强学习(RL)优化缓存分配。与RL的大多数应用程序不同,RL的大多数应用程序在模拟器上学习了决策策略,我们认为没有以前的知识可用于构建这种模拟器。因此,我们以在线方式应用RL,即通过直接扰动实际系统并监视其性能的变化来学习策略。由于扰动会产生虚假的流动,因此我们也限制了它们。我们在模拟中表明,我们的方法迅速融合了理论最佳,我们研究了它的公平性,对几种情况特征的敏感性,并将其与最先进的方法进行比较。我们的代码复制结果可作为开源。1
基于变压器的大语言模型(LLMS)在各种自然语言处理任务中都具有令人印象深刻的表现。为LLM推断为生成长含量而构成挑战,这是由于瞬态状态的巨大内存足迹(称为键值(KV)缓存),该状态以序列长度和批处理大小缩放。在本文中,我们提出了Infinigen,这是一种针对Longext Genertion量身定制的新型KV缓存管理框架,该框架协同与现代卸载基于卸载的推理系统合作。Infinigen利用了关键见解,即可以通过对当前层的最小彩排以及查询权重的一部分和后续层的关键缓存进行最小化的彩排来推测,对于计算变压器中后续注意力层至关重要的重要洞察力。这使我们只能预取基本的KV缓存条目(不提供所有内容),从而在基于卸载的LLM服务系统中减轻主机内存中的提取开销。我们对几种代表性LLMS的评估表明,与先前的KV高速缓存管理方法相比,Infinigen将基于现代卸载系统的总体性能提高了3.00倍,同时提供了更好的模型准确性。
CPU:CPU 的型号及其速度是决定计算机性能的首要因素。通常,CPU 到目前为止的表现优于其他组件,性能不佳通常是由于其他因素造成的。CPU 性能的一个重要因素是板载缓存的数量。如果 CPU 有足够的缓存,它可以将未来的指令和数据排队在缓存中。由于访问缓存的速度远快于访问 RAM,因此整体处理性能得到了提高。板载缓存尤其有助于 CPU 参与图形处理。
媒体流媒体缓存并使用以下HTTP蒸汽协议为媒体播放器提供支持的网络内容,软件和流媒体:Apple HTTP Live流媒体(HLS),Microsoft HTTP Smooth Streaming(HSS),Adobe HTTP HTTP HTTP HTTP Dynaming(HDS)和MPEG DynamiC DynamiC Dynamic Addaptive Adpastive越过HTTP(HTTP)。媒体流媒体支持视频按需(VOD),实时视频,时移电视(TSTV),渐进下载,安全下载和从普通高性能HTTP缓存中的小对象缓存。媒体流媒体根据客户端位置,缓存可用性,缓存负载和所请求的内容执行用于缓存选择的复杂算法。