详细内容或原文请订阅后点击阅览
mAceReason-Math:为 RLVR 准备的高质量多语言数学问题数据集
带可验证奖励的强化学习 (RLVR) 已成功应用于显着提升预训练大型语言模型的能力,特别是在数学和逻辑问题领域。然而,当前的研究和可用的训练数据集仍然以英语为中心。虽然过去已经创建了多语言训练数据和基准,但它们在创建时并未考虑到 RLVR 和当前模型的功能,而且它们的难度通常太低,无法为当前模型提供适当的训练信号。为了解决这一差距,我们提供了 mAceReason-Math,...
来源:Apple机器学习研究带可验证奖励的强化学习 (RLVR) 已成功应用于显着提升预训练大型语言模型的能力,特别是在数学和逻辑问题领域。然而,当前的研究和可用的训练数据集仍然以英语为中心。虽然过去已经创建了多语言训练数据和基准,但它们在创建时并未考虑到 RLVR 和当前模型的功能,而且它们的难度通常太低,无法为当前模型提供适当的训练信号。为了解决这一差距,我们提供了 mAceReason-Math,这是一个具有挑战性的数学问题的高质量翻译数据集,源自专门为 RLVR 策划的语料库 (AceReason-Math)。我们进一步特别注意清理和改进我们的翻译,最终覆盖 14 种语言,每种语言有超过 10,000 个样本。我们发布数据集是为了促进研究社区的多语言 RLVR 研究和基准测试。
