多语言推理健身房:程序推理环境的多语言扩展

我们提出了多语言推理 Gym,它是 Reasoning Gym(Stojanovski 等人,2025)的扩展,它可以在程序上生成跨 14 种语言的可验证推理问题。我们翻译 94 项任务的模板,并以 10 种语言进行母语验证,并进行有针对性的代码或模板调整,以确保语言的自然性。多语言推理 Gym 保留了原始 Reasoning Gym 中使用的程序生成方法的核心优势,例如几乎无限的问题实例生成和可调整的难度,并且仍然可直接用于强化......

来源:Apple机器学习研究

我们提出了多语言推理 Gym,它是 Reasoning Gym(Stojanovski 等人,2025)的扩展,它可以在程序上生成跨 14 种语言的可验证推理问题。我们翻译 94 项任务的模板,并以 10 种语言进行母语验证,并进行有针对性的代码或模板调整,以确保语言的自然性。多语言推理 Gym 保留了原始 Reasoning Gym 中使用的程序生成方法的核心优势,例如几乎无限的问题实例生成和可调难度,并且仍然可直接用于来自可验证奖励和评估设置的强化学习。多语言推理健身房中的问题是跨语言并行的,由于环境的程序性质,可以实现大规模跨语言并行数据生成。我们发布了我们的实现来支持多语言推理模型的研究。

  • † 哈索·普拉特纳研究所和波茨坦 ELLIS 单位
  • ** 在 Apple 期间完成的工作
  • ‡ 平等贡献