mAceReason-Math：为 RLVR 准备的高质量多语言数学问题数据集 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

mAceReason-Math：为 RLVR 准备的高质量多语言数学问题数据集

2026年3月13日 00:00 33 Comments

来源:Apple机器学习研究

带可验证奖励的强化学习 (RLVR) 已成功应用于显着提升预训练大型语言模型的能力，特别是在数学和逻辑问题领域。然而，当前的研究和可用的训练数据集仍然以英语为中心。虽然过去已经创建了多语言训练数据和基准，但它们在创建时并未考虑到 RLVR 和当前模型的功能，而且它们的难度通常太低，无法为当前模型提供适当的训练信号。为了解决这一差距，我们提供了 mAceReason-Math，这是一个具有挑战性的数学问题的高质量翻译数据集，源自专门为 RLVR 策划的语料库 (AceReason-Math)。我们进一步特别注意清理和改进我们的翻译，最终覆盖 14 种语言，每种语言有超过 10,000 个样本。我们发布数据集是为了促进研究社区的多语言 RLVR 研究和基准测试。

† 哈索·普拉特纳研究所和波茨坦 ELLIS 单位

** 在 Apple 期间完成的工作

‡ 平等贡献

创建训练数学 Math RLVR 语料库当前的完成的可用的翻译提供研究所模型的考虑到研究质量适当的数据集语言特别注意模型问题波茨坦基准

mAceReason-Math：为 RLVR 准备的高质量多语言数学问题数据集

其他外部链接

Tags

XiaoMi-AI