多语言推理健身房：程序推理环境的多语言扩展 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

多语言推理健身房：程序推理环境的多语言扩展

2026年3月13日 00:00 33 Comments

来源:Apple机器学习研究

我们提出了多语言推理 Gym，它是 Reasoning Gym（Stojanovski 等人，2025）的扩展，它可以在程序上生成跨 14 种语言的可验证推理问题。我们翻译 94 项任务的模板，并以 10 种语言进行母语验证，并进行有针对性的代码或模板调整，以确保语言的自然性。多语言推理 Gym 保留了原始 Reasoning Gym 中使用的程序生成方法的核心优势，例如几乎无限的问题实例生成和可调难度，并且仍然可直接用于来自可验证奖励和评估设置的强化学习。多语言推理健身房中的问题是跨语言并行的，由于环境的程序性质，可以实现大规模跨语言并行数据生成。我们发布了我们的实现来支持多语言推理模型的研究。

† 哈索·普拉特纳研究所和波茨坦 ELLIS 单位

** 在 Apple 期间完成的工作

‡ 平等贡献

多语言推理健身房：程序推理环境的多语言扩展

其他外部链接

Tags

XiaoMi-AI