详细内容或原文请订阅后点击阅览
通过群集以下采样
专业语言模型(LMS)专注于特定的任务或域通常超过相同大小的通用LMS。但是,预算这些模型所需的专业数据仅适用于大多数任务。在这项工作中,我们改用大型通才训练集建立了专业模型。我们通过有限的特定领域数据的指导调整通才数据的训练分布。我们探索了几种方法,重要性采样脱颖而出。此方法将通才数据集和这些簇中的样本群集成……
来源:Apple机器学习研究专业语言模型(LMS)专注于特定的任务或域通常超过相同大小的通用LMS。但是,预算这些模型所需的专业数据仅适用于大多数任务。在这项工作中,我们改用大型通才训练集建立了专业模型。我们通过有限的特定领域数据的指导调整通才数据的训练分布。我们探索了几种方法,重要性采样脱颖而出。该方法根据较小的专家数据集中的频率将通才数据集和这些簇中的样本簇。它是可扩展的,适合预处理和持续预处理,在多任务设置中效果很好。我们的发现表明,在多项选择问题任务上,语言建模的困惑和准确性方面,不同领域的改进。我们还提供了消融研究,以检查数据集大小,聚类配置和模型大小的影响。