摘要。实时战略任务的有效评估需要自适应机制来应对动态和不可预测的环境。本研究提出了一种改进评估函数以实时响应战场态势变化的方法,利用实时战略游戏中基于在线强化学习的动态权重调整机制。该方法在传统静态评估函数的基础上,利用在线强化学习中的梯度下降来动态更新权重,并结合权重衰减技术确保稳定性。此外,还集成了 AdamW 优化器,实时调整在线强化学习的学习率和衰减率,进一步减少对人工参数调整的依赖。循环竞赛实验表明,该方法显著提升了 Lanchester 作战模型评估函数、Simple 评估函数和 Simple Sqrt 评估函数在 IDABCD、IDRTMinimax、Portfolio AI 等规划算法中的应用效果。该方法显著提高了得分,并且随着地图尺寸的增加,这种增强变得更加明显。此外,对于所有评估函数和规划算法,该方法引起的评估函数计算时间的增加都保持在 6% 以下。所提出的动态自适应评估函数为实时战略任务评估提供了一种有前途的方法。