超越加速器:与日本基因计划的AWS建立基础模型的教训

2024年,经济,贸易和工业部(METI)推出了生成的AI Accelerator Challenge(GenIAC),这是一项日本国家计划,该计划通过为公司提供资金,指导和大量计算资源来提高生成AI的基础资源(FM)开发。 AWS被选为Geniac第二周期的云提供商(周期2)。它为12个参与组织提供了基础架构和技术指导。

来源:亚马逊云科技 _机器学习
2024年,经济,贸易和工业部(METI)推出了生成的AI Accelerator Challenge(GenIAC),这是一项日本国家计划,该计划通过为公司提供资金,指导和大量计算资源来提高生成AI的基础资源(FM)开发。 AWS被选为Geniac第二周期的云提供商(周期2)。它为12个参与组织提供了基础架构和技术指导。从表面上看,挑战似乎很简单:让每个团队访问数百个GPU/Trainium芯片,然后开始创新。实际上,成功的FM培训所需的远比原始硬件所需的要多得多。发现分配1000多个加速器只是起点 - 真正的挑战在于架构可靠的系统并克服分布式培训障碍。在Geniac周期2期间,12个客户在一天中成功部署了127个Amazon EC2 P5实例(NVIDIA H100 TensorCore GPU服务器)和24个Amazon EC2 TRN1实例(AWS Trainium1服务器)。在接下来的6个月中,培训了多个大型型号,包括著名的项目,例如Stockmark-2-100b-instruct-Beta,Llama 3.1 Shisa V2 405B和Llama-3.1-Future-Code-Ja-8b等,其他项目都来自该订婚和国家企业范围的范围,该帖子分享了关键的洞察力,以构建企业的范围,以实现企业的范围。从技术参与到Geniac的至关重要的早期课程是,运行多组织,国家规模的机器学习(ML)倡议需要跨不同内部团队的协调支持。 AWS建立了一个虚拟团队,将帐户团队,专业解决方案架构师和服务团队汇集在一起。如下图所示,Geniac参与模型在客户与多层AWS团队结构之间的密切合作中蓬勃发展。customers(CX)通常由商业和技术领导组成,包括ML和平台E