Axlearn:异质基础设施的模块化大型培训

我们设计和实施Axlearn,这是一种生产深度学习系统,可促进大型深度学习模型的可扩展和高性能培训。与其他最先进的深度学习系统相比,Axlearn独特着重于模块化和对异质硬件基础架构的支持。 Axlearn在软件组件之间的内部接口遵循严格的封装,从而可以组装不同的组件,以促进对异质计算基础架构的快速模型开发和实验。我们引入了一种新颖的方法,可以通过…

来源:Apple机器学习研究

我们设计和实施Axlearn,这是一种生产深度学习系统,可促进大型深度学习模型的可扩展和高性能培训。与其他最先进的深度学习系统相比,Axlearn独特着重于模块化和对异质硬件基础架构的支持。 Axlearn在软件组件之间的内部接口遵循严格的封装,从而可以组装不同的组件,以促进对异质计算基础架构的快速模型开发和实验。我们引入了一种新颖的方法,可以通过编码线(LOC) - 复合度来量化模块化,该方法与其他系统中的线性或二次复杂性相比,我们的系统如何保持恒定的复杂性保持恒定的复杂性。这允许将诸如旋转位置嵌入(绳索)等功能集成到仅有10行代码的数百个模块中,而其他系统中的数百则。同时,与最先进的培训系统相比,Axlearn保持等效性能。最后,我们分享了我们在Axlearn的开发和运作方面的经验。

    §杜克大学**在Apple
  • §杜克大学
  • **在Apple