Soft Computing, Volume 29, Issue 21-22, November 2025
1) 资源受限项目调度问题的双目标数学模型:公式化和元启发式作者:Ali Kamali Mohammadzadeh、Saeed Ghafoori、Mirpouya Mirmozaffari 页数:5683 - 57062) 通过最优特征选择和一类分类进行汽车焊接过程故障诊断的智能系统作者:Jesús Alejandro Navarro-Acosta, Edgar O. Reséndiz-Flores 页数:5707 - 57223) 用于动态约束优化问题的共同进化元启发式框架 作者:Gary Pamparà, Andries Engelbrecht 页数:5723 - 57704) 一种估计非
RL for Reasoning by Adaptively Revealing Rationales
我们提出,来自部分专家演示的强化学习(RL)不仅仅是一种训练启发式方法,而且是解决复杂序列生成任务的一个有前景的框架。监督微调(SFT)依赖于密集的真实标签,随着序列长度的增长,其成本也越来越高。另一方面,强化学习则面临着稀疏奖励和组合大输出空间的问题。我们通过引入自适应回溯(AdaBack)来解决这个问题,这是一种按样本课程学习算法,在训练期间仅显示目标输出的部分前缀。该...