获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
Soup-of-Experts: Pretraining Specialist Models via Parameters Averaging
大规模模型经常在不同的数据源的混合物上进行培训。不同的数据混合物产生了非常不同的下游性能。我们提出了一种新型架构,可以为每个数据混合物实例化一个模型,而不必重新培训模型,而不必重新培训该模型,而不必构成一系列专家的构造,这些构造是一种可实用的组合型组合。直方图。要训练此体系结构,我们采样了随机直方图,实例化相应的模型,然后通过一批数据进行反向处理…