直方图关键词检索结果

专家汤:通过参数进行预处理的专家模型

Soup-of-Experts: Pretraining Specialist Models via Parameters Averaging

大规模模型经常在不同的数据源的混合物上进行培训。不同的数据混合物产生了非常不同的下游性能。我们提出了一种新型架构,可以为每个数据混合物实例化一个模型,而不必重新培训模型,而不必重新培训该模型,而不必构成一系列专家的构造,这些构造是一种可实用的组合型组合。直方图。要训练此体系结构,我们采样了随机直方图,实例化相应的模型,然后通过一批数据进行反向处理…