PyTorch 模型性能分析和优化 — 第 11 部分克服可变形状张量的隐藏性能陷阱:PyTorch 中的高效数据采样一文首先出现在 Towards Data Science 上。
Deploy Mistral AI’s Voxtral on Amazon SageMaker AI
在本文中,我们演示了使用 vLLM 和自带容器 (BYOC) 方法在 Amazon SageMaker AI 终端节点上托管 Voxtral 模型。 vLLM 是一个用于服务大型语言模型 (LLM) 的高性能库,具有分页注意力以改进内存管理和张量并行性,以便跨多个 GPU 分发模型。
Google Poses Serious Competition for Nvidia in Chip War
多年来,传统观点一直是这样的:用于训练和运行 AI 模型的性能最佳的芯片来自 Nvidia (GPU)。另一种选择是谷歌的定制芯片,即张量处理单元(TPU),可通过谷歌云获取。
Why Google’s custom AI chips are shaking up the tech industry
据报道,谷歌正在洽谈将其张量处理单元(一种专门为人工智能设计的计算机芯片)出售给其他科技公司,此举可能会令占主导地位的芯片制造商 Nvidia 感到不安