Inference

2024年5月22日机构名称:

FFCL：具有皮质环路的前向-前向网络，无需反向传播即可在边缘进行训练和推理

前向-前向学习 (FFL) 算法是最近提出的一种无需占用大量内存的反向传播即可训练神经网络的解决方案。在训练期间，标签会伴随输入数据，将其分类为正输入或负输入。每一层都会独立学习对这些输入的响应。在本研究中，我们通过以下贡献增强了 FFL：1) 我们通过在层之间分离标签和特征转发来优化标签处理，从而提高学习性能。2) 通过修改标签集成，我们增强了推理过程，降低了计算复杂性并提高了性能。3) 我们引入了类似于大脑皮层环路的反馈回路，信息在其中循环并返回到早期的神经元，使各层能够将来自前几层的复杂特征与低级特征相结合，从而提高学习效率。

查看详细

File

2024年5月21日机构名称:

基于GPU的私人信息检索针对机上机器学习推理

抽象的机上计算机学习（ML）推理可以在无需向远程服务器揭示的用户设备上使用私人用户数据。但是，对于依靠嵌入太大而无法存储在设备上的许多应用程序的应用程序，纯粹的私人ML推理解决方案是不切实际的。特别是，建议模型通常在1-10 GB的数据下使用多个嵌入式表，这使得它们不切实际地存储在设备上。为了超越这个障碍，我们建议使用私人信息检索（PIR）有效，私人地从服务器中嵌入嵌入，而无需共享任何私人信息。由于现成的PIR算法通常过于计算，因此很密集，无法直接用于潜伏敏感的推理任务，我们1）提出了基于GPU的新型PIR加速度，以及2）与下游ML的pir共同设计PIR，以获得进一步的加速。我们的GPU加速策略将系统吞吐量提高了20倍以上，超过了CPU PIR实现，而我们的PIR-ML共同设计在固定模型质量下提供了超过5倍的额外吞吐量改进。，对于各种设备上的ML插图，例如建议和语言建模，我们的单个V100 GPU上的系统每秒可提供高达100，000的查询 - 基于CPU的基线，A> 100×吞吐量改进 - 在基于CPU的基线上 - 维护模型准确性。

查看详细

File

2024年4月10日机构名称:

网络内机器学习推理的快速原型

网络内的机器学习推断提供了高吞吐量和低潜伏期。它位于网络内，电力效率并改善应用程序的性能。尽管有其标准，但网络内机器学习研究的限值很高，需要在可编程数据平面上进行大量专业知识，以了解机器学习和应用领域的知识。现有的解决方案主要是一次性的努力，很难跨平台复制，更改或端口。在本文中，我们介绍了种植者：一个模块化，有效的开源框架，用于在一系列平台和管道体系结构上快速原型化网络内的机器学习模型。通过识别机器学习算法的一般映射方法 - 播种机引入了新的机器学习映射并改进了现有的映射。它为用户提供了几个示例用例，并支持不同的数据集，并且用户已经将其扩展到新的字段和应用程序。我们的评估表明，与以前的模型量化作品相比，Planter改善了机器学习的能力，同时大大降低了资源消耗并与网络功能共存。在未修改的商品硬件上以线速率运行的种植者支持的算法，每秒提供数十亿个推理决策。

查看详细

File

2024年4月3日机构名称:

信息论和变分推断的平方和松弛

摘要我们考虑香农相对熵的扩展，称为 f -散度。三个经典的相关计算问题通常与这些散度有关：(a) 根据矩进行估计，(b) 计算正则化积分，以及 (c) 概率模型中的变分推断。这些问题通过凸对偶相互关联，并且对于所有这些问题，在整个数据科学中都有许多应用，我们的目标是计算上可处理的近似算法，这些算法可以保留原始问题的属性，例如潜在凸性或单调性。为了实现这一点，我们推导出一系列凸松弛，用于从与给定特征向量相关的非中心协方差矩阵计算这些散度：从通常不易处理的最佳下限开始，我们考虑基于“平方和”的额外松弛，现在它可以作为半定程序在多项式时间内计算。我们还提供了基于量子信息理论的谱信息散度的计算效率更高的松弛方法。对于上述所有任务，除了提出新的松弛方法外，我们还推导出易于处理的凸优化算法，并给出了多元三角多项式和布尔超立方体上的函数的说明。

查看详细

File

2024年4月2日机构名称:

指定：加速使用基于树的投机推理和验证的大型语言模型

由于其大量参数，复杂的架构和较高的计算要求。例如，最大的GPT-3体系结构具有1750亿个参数，该参数需要八个以上的NVIDIA 40GB A100 GPU才能存储在半精确的浮点中，并且需要几秒钟才能提供单个推断请求[3]。llm通常作为输入一个令牌序列，称为提示，并一次生成后续令牌一个，如图1a所示。序列中每个令牌的生成都在输入提示和先前生成的令牌上进行条件，并且不考虑将来的令牌。此方法也称为自回归解码，因为每个生成的令牌也被用作生成未来令牌的输入。令牌之间的这种依赖性对于许多NLP任务至关重要，这些任务需要保留生成的令牌的顺序和上下文，例如文本完成[55]。现有的LLM系统通常使用增量解码方法来服务请求，其中系统在单个步骤中计算所有提示令牌的激活，然后使用输入提示和所有先前生成的令牌进行迭代解码一个新的令牌[27]。这种方法在代币之间依赖于数据依赖性，但是实现了亚最佳运行时性能和有限的GPU利用率，因为在每个请求中的并行程度在增量阶段中受到极大的限制。此外，变压器的注意机制[48]要求访问所有前任令牌的键和值，以计算新令牌的注意力输出。为了避免重新计算所有上述令牌的键和值，当今的LLM系统使用缓存机制存储其键和值以在将来的迭代中重新使用。对于长期生成任务（例如，GPT-4在请求中最多支持32K令牌），缓存键和值引入了重要的内存开销，这防止了现有系统由于存储器的键和值的要求而并行提供大量的记忆。是出于在进程优化中进行投机执行的概念[13，42]，最近的工作引入了基于序列的投机推断，该推断利用了一个小的猜测模型（SSM）生成一个令牌序列，以生成一系列令牌并使用LLM在同时检查其正确性[5，22，22，22，22，22，22，22，22，444,44,44，51]。这些尝试仅考虑由单个SSM生成的令牌序列进行投机，因为它们之间的模型容量差距不能很好地与LLM保持一致，因为SSM通常比LLM小的数量级以保持低内存和运行时的空间开销。本文介绍了SpecInfer，该系统可以提高LLM的端到端潜伏期和计算效率，该系统具有基于树的投机推理和验证。图1b说明了现有的增量解码，基于序列的投机推断与基于树的投机推断之间的比较。一个关键的见解 - 指定者是同时考虑各种猜测候选者（而不是像现有的

查看详细

File

2024年3月26日机构名称:

hetegen：在资源约束设备上对大语言模型的异质平行推断

模型压缩（Dettmers等人，2022; Xiao等。，2022; Frantar等。，2022）压缩参数权重以减少参数存储器的位宽和低级操作，包括KV-CACHE管理（Kwon等人，2023年）和融合的注意内核（Dao等人，2022b）已提出通过系统选择来减少记忆使用量。但是，他们节省内存的能力仍然远非预期。零下载（Ren等人，2021; Aminabadi等。，2022b）提议将未使用的参数卸载到CPU内存和磁盘上，以大大降低内存成本，但它导致速度明显损失。flexgen（Sheng等人，2023）通过计算CPU中的注意力和计算重叠I/O中的注意力，改善了大批次推理的卸载吞吐量。但是，FlexGEN对CPU和I/O资源的利用仍然有限，并且不会有效地减少稀疏输入的延迟。

查看详细

File

2024年3月20日机构名称:

使用用于碳友好的大型语言模型推理的发电指令迈向可持续的Genai

摘要 - 各个部门的生成人工智能（Genai）的快速发展引起了重大的环境问题，尤其是其云和高性能计算（HPC）基础架构的碳排放。本文介绍了S Prout，这是一个创新的框架，旨在通过减少生成大语言模型（LLM）推理服务的碳足迹来解决这些问题。prout利用“发电指导”的创新概念来指导自回归的生成过程，从而提高碳效率。我们提出的方法可以很好地平衡对生态可持续性的需求与对高质量产生结果的需求。采用指令优化器将生成指令的战略分配给用户提示和原始离线质量评估器，在使用Llama2 LLM和全球电网数据中，在现实世界评估中，碳排放量显着降低了40％以上。这项研究标志着将AI技术与可持续实践保持一致的关键一步，强调了减轻生成人工智能迅速扩展领域的环境影响的潜力。

查看详细

File

2024年3月18日机构名称:

能量感知分布式推理的视角

摘要 — 对快速响应的高质量人工智能生成内容 (AIGC) 的追求推动了自然语言处理 (NLP) 服务的发展，尤其是在边缘启用的服务 (即边缘 NLP)。具体来说，我们研究了下一个单词预测的分布式推理，这是用户设备上移动键盘的流行边缘 NLP 服务。因此，我们优化了耦合指标，即最大化预测点击率 (CTR) 以提高服务质量 (QoS)，最小化用户不耐烦以增强体验质量 (QoE)，并将能耗控制在可持续发展的预算范围内。此外，我们考虑了现实世界的环境，其中没有关于异构 NLP 模型预测准确性的先验知识。通过集成在线学习和在线控制，我们提出了一种新颖的分布式推理算法，用于考虑用户不耐烦的在线下一个单词预测 (DONUT)，以估计模型的预测准确性并平衡耦合指标之间的权衡。我们的理论分析表明，DONUT 实现了亚线性遗憾（CTR 损失），确保了有限的用户不耐烦，并保持了预算内的能耗。通过数值模拟，我们不仅证明了 DONUT 优于其他基线方法的性能，还证明了其对各种设置的适应性。

查看详细

File

2024年3月12日机构名称:

使用...

导入root＃使用根解释器root .ginterpreter.declare（'#include“ model.hxx”）＃创建会话类S = root。tmva_sofie_model.session（'model_weights.dat'）＃ - 事件循环……。＃评估模型，输入可以是类型Float32结果= s的numpy阵列＃。推断（输入）

查看详细

File

2024年3月4日机构名称:

有针对性广告中的敏感推论

在一系列实证研究中，我们询问了1,000多名美国成年人的舒适水平，其中包括二十八个广告主题（例如，饮食失调症，赌博网站，性增强产品，性增强产品，自行车）。的结果表明，参与者对广告主题的舒适度是在频谱上而不是二进制中存在的；广告主题不能普遍归类为敏感或不敏感。从目标广告转向上下文广告可以平均提高舒适度；但是，对于特别敏感的主题的子集，该改进被洗净。AD主题相关性，是机器学习中的重要指标，有时与舒适性的增加相关，但也与减少相关。最后，在数字户外环境中有针对性的广告（例如，杂货店，健身房，浴室）的舒适性始终很低。

查看详细

XiaoMi-AI文件搜索系统

Inference

FFCL：具有皮质环路的前向-前向网络，无需反向传播即可在边缘进行训练和推理

基于GPU的私人信息检索针对机上机器学习推理

网络内机器学习推理的快速原型

信息论和变分推断的平方和松弛

指定：加速使用基于树的投机推理和验证的大型语言模型

hetegen：在资源约束设备上对大语言模型的异质平行推断

使用用于碳友好的大型语言模型推理的发电指令迈向可持续的Genai

能量感知分布式推理的视角

使用...

有针对性广告中的敏感推论

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI