并行性领域信息情报检索---XiaoMi-AI

2025年8月13日 17:01

使用AWS Trainium芯片和VLLM

How Amazon scaled Rufus by building multi-node inference using AWS Trainium chips and vLLM

在这篇文章中，亚马逊分享了他们如何使用Amazon Trainium Chips和VLLM为其生成的AI购物助理Rufus开发多节点推理解决方案，以大规模提供大型语言模型。该解决方案结合了领导者/追随者编排模型，混合并行性策略以及在亚马逊ECS上构建的多节点推理单元抽象层，以跨多个节点部署模型，同时保持高性能和可靠性。

Apple机器学习研究

2025年8月8日 00:00

您的LLM知道未来：揭示其多token预测潜力

Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential

自回归语言模型受其固有的顺序性质的约束，一次产生一个令牌。该范式限制了推理速度和并行性，尤其是在生成阶段的文本方向和语义相对确定时。在这项工作中，我们提出了一个新颖的框架，该框架利用了关于未来令牌的香草自回归语言模型的固有知识，结合了技术来实现这一潜力并能够同时预测随后多个令牌。我们的方法介绍了几项关键创新：（1）A…

Apple机器学习研究

2025年7月17日 00:00

苹果情报基金会语言模型技术报告2025

Apple Intelligence Foundation Language Models Tech Report 2025

我们介绍了两种多语言的多式联运基础语言模型，使苹果智能在苹果设备和服务上具有功能：（i）通过建筑创新（例如KV-CACHE共享和2位量化量化的培训）为Apple Silicon优化了〜3B参数的启用式启动模型；（ii）建立在新型的并行轨道混合物（PT-MOE）变压器上的可扩展服务器模型，该模型结合了轨道并行性，稀疏计算的混合物和交织的全球 - 单位关注，以使高质量与竞争性成本相互交流，以使苹果的私人云计算……

并行性关键词检索结果

使用AWS Trainium芯片和VLLM

您的LLM知道未来：揭示其多token预测潜力

苹果情报基金会语言模型技术报告2025