具有可扩展在线双层优化的自适应训练分布

在网络规模语料库上进行预训练的大型神经网络是现代机器学习的核心。在这种范式中,大型异构预训练数据的分布很少与应用领域的分布相匹配。这项工作考虑在拥有反映目标测试条件的少量数据样本的情况下修改预训练分布。我们提出了一种算法,该算法受到最近将此设置表述为在线双层优化问题的启发。考虑到可扩展性,我们的算法优先考虑在可能... 的训练点计算梯度。

来源:Apple机器学习研究

在网络规模语料库上进行预训练的大型神经网络是现代机器学习的核心。在这种范式中,大型异构预训练数据的分布很少与应用领域的分布相匹配。这项工作考虑在拥有反映目标测试条件的少量数据样本的情况下修改预训练分布。我们提出了一种算法,该算法的灵感来自最近将此设置表述为在线双层优化问题。考虑到可扩展性,我们的算法优先计算最有可能改善目标分布损失的训练点的梯度。从经验上讲,我们表明在某些情况下,这种方法比领域适应文献中的现有策略更有益,但在其他情况下可能不会成功。我们提出了一个简单的测试来评估我们的方法何时可以很好地发挥作用,并指出进一步的研究以解决当前的局限性。