LvR领域信息情报检索---XiaoMi-AI

2026年3月13日 00:00

mAceReason-Math：为 RLVR 准备的高质量多语言数学问题数据集

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

带可验证奖励的强化学习 (RLVR) 已成功应用于显着提升预训练大型语言模型的能力，特别是在数学和逻辑问题领域。然而，当前的研究和可用的训练数据集仍然以英语为中心。虽然过去已经创建了多语言训练数据和基准，但它们在创建时并未考虑到 RLVR 和当前模型的功能，而且它们的难度通常太低，无法为当前模型提供适当的训练信号。为了解决这一差距，我们提供了 mAceReason-Math，...

LvR关键词检索结果

mAceReason-Math：为 RLVR 准备的高质量多语言数学问题数据集