本文介绍了 TGS 如何使用 Amazon SageMaker HyperPod 实现分布式训练的近线性扩展以及基于 Vision Transformer 的 SFM 的扩展上下文窗口。该联合解决方案将训练时间从 6 个月缩短至仅 5 天,同时能够分析比以前更大的地震体积。
Introducing Disaggregated Inference on AWS powered by llm-d
在这篇博文中,我们介绍了下一代推理能力背后的概念,包括分解服务、智能请求调度和专家并行。我们讨论它们的优势,并介绍如何在 Amazon SageMaker HyperPod EKS 上实施它们,以显着提高推理性能、资源利用率和运营效率。