获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
摘要 - 作为深度学习(DL)模型的大小不断增长,使用大量设备(例如GPU)和服务器的分布式模型学习迫切需要。设备/服务器之间的集体通信(用于梯度同步,中间数据交换等)介绍了特殊的间接开销,从而在分布式学习中呈现了主要的性能瓶颈。已经开发了许多通信库,例如NCCL,GLOO和MPI,以优化对沟通的沟通。预定义的通信策略(例如,环或树)在很大程度上被采用,这可能不足以有效或适应性用于机间通信,尤其是在基于云的场景中,实例配置和网络性能可能会有很大差异。我们提出了ADAPCC,这是一个新颖的通信库,该库动态适应了资源的性质和网络变异性,以优化通信和培训性能。ADAPCC基于运行时分析生成通信策略,减少资源浪费在等待计算过程中,并在DL工人之间执行有效的数据传输。与NCCL和其他代表性通信后端相比,在各种设置下的实验结果表明了2倍的通信加速和31%的训练吞吐量改善。索引条款 - 分配培训,集体沟通