How Amazon scaled Rufus by building multi-node inference using AWS Trainium chips and vLLM
在这篇文章中,亚马逊分享了他们如何使用Amazon Trainium Chips和VLLM为其生成的AI购物助理Rufus开发多节点推理解决方案,以大规模提供大型语言模型。该解决方案结合了领导者/追随者编排模型,混合并行性策略以及在亚马逊ECS上构建的多节点推理单元抽象层,以跨多个节点部署模型,同时保持高性能和可靠性。
Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential
自回归语言模型受其固有的顺序性质的约束,一次产生一个令牌。该范式限制了推理速度和并行性,尤其是在生成阶段的文本方向和语义相对确定时。在这项工作中,我们提出了一个新颖的框架,该框架利用了关于未来令牌的香草自回归语言模型的固有知识,结合了技术来实现这一潜力并能够同时预测随后多个令牌。我们的方法介绍了几项关键创新:(1)A…
Apple Intelligence Foundation Language Models Tech Report 2025
我们介绍了两种多语言的多式联运基础语言模型,使苹果智能在苹果设备和服务上具有功能:(i)通过建筑创新(例如KV-CACHE共享和2位量化量化的培训)为Apple Silicon优化了〜3B参数的启用式启动模型; (ii)建立在新型的并行轨道混合物(PT-MOE)变压器上的可扩展服务器模型,该模型结合了轨道并行性,稀疏计算的混合物和交织的全球 - 单位关注,以使高质量与竞争性成本相互交流,以使苹果的私人云计算……