详细内容或原文请订阅后点击阅览
专家汤:通过参数进行预处理的专家模型
大规模模型经常在不同的数据源的混合物上进行培训。不同的数据混合物产生了非常不同的下游性能。我们提出了一种新型架构,可以为每个数据混合物实例化一个模型,而不必重新培训模型,而不必重新培训该模型,而不必构成一系列专家的构造,这些构造是一种可实用的组合型组合。直方图。要训练此体系结构,我们采样了随机直方图,实例化相应的模型,然后通过一批数据进行反向处理…
来源:Apple机器学习研究大规模模型经常在不同的数据源的混合物上进行培训。不同的数据混合物产生了非常不同的下游性能。我们提出了一种新型架构,可以为每个数据混合物实例化一个模型,而不必重新培训模型,而不必重新培训该模型,而不必构成一系列专家的构造,这些构造是一种可实用的组合型组合。直方图。要训练该体系结构,我们采样了随机直方图,实例化了相应的模型,并通过从相应的直方图中采样的一批数据进行反向处理。我们证明了我们方法在几个数据集中快速获取小型专业模型的承诺。