子空间关键词检索结果

D Brief:船只袭击中的“背信弃义”?;五角大楼的新人工智能计划;委内瑞拉破碎的防空系统;量子空间相机;还有一点。

The D Brief: ‘Perfidy’ in boat strike?; Pentagon’s new AI plan; Venezuela’s broken air defenses; Quantum space cameras; And a bit more.

通过可扩展的训练中期强化学习将推理作为动作抽象来学习

Learning to Reason as Action Abstractions with Scalable Mid-Training RL

大型语言模型在强化学习 (RL) 方面表现出色,但完全释放这种潜力需要中期训练阶段。有效的中期训练阶段应该确定一组紧凑的有用动作,并通过在线强化学习在其中进行快速选择。我们通过提出关于训练中期如何塑造训练后的第一个理论结果来形式化这种直觉:它描述了一个动作子空间,该子空间可以最小化剪枝的值近似误差和后续规划期间的 RL 误差。我们的分析揭示了训练中期效果的两个关键决定因素:...