加速基础模型培训和与亚马逊萨吉马制造商Hyperpod和Amazon Sagemaker Studio

在这篇文章中,我们讨论了如何通过使用IDE和SageMaker Studio的IDE和工具以及与Amazon Eks的Sagemaker Hyperpod的可扩展性和弹性来改善和加快数据科学家的开发经验。该解决方案通过使用AWS服务提供的治理和安全功能来简化集中系统的系统管理员的设置。

来源:亚马逊云科技 _机器学习
现代生成的AI模型提供商需要前所未有的计算量表,预训练通常涉及成千上万的加速器连续运行几天,有时甚至几个月。基础模型(FMS)要求分布的培训簇(使用Pytorch等框架协调的加速计算实例组协调组)使数百个加速器的工作负载并联(例如AWS Trainium和AWS推理chips and aws pebleentia chips或nvidia gpus)。请求。与AWS基础架构(例如Amazon弹性计算云(Amazon EC2)加速计算实例,弹性织物适配器(EFA)以及分布式文件系统(如Amazon弹性文件系统(Amazon efs)和Amazon FSX),这些超级插图可以运行大量的机器学习(ML)培训和范围的collection and Collect and Contely and Contely,contection and Contect and Contect and Contect and Contect and Contect and Contect and Contect and Contect and Contect and contern and contemant and contern and contern and contemant and,平衡。但是,在大规模上,即使有强大的编排者在集群弹性方面都面临挑战。分布式培训工作负载专门同步运行,因为每个培训步骤都需要参与实例在继续下一步之前完成计算。这意味着,如果单个实例失败,则整个作业失败。这些故障的可能性随集群的大小而增加。尽管弹性和基础设施的可靠性可能是一个挑战,但开发人员的经验仍然同样关键。传统的ML工作流创建孤岛,数据和研究科学家在本地Jupyter笔记本或视觉工作室代码实例上的原型,缺乏访问集群规模的存储,并且工程师通过单独的Slurm或Kubernetes(例如,Kubectl或Helm,例如)来管理生产工作。这种分裂具有后果,包括笔记本和生产环境之间的不匹配,缺乏本地A