类似于Alphastar [3]中采用的方法,这项研究强调了实时适应性和决策。尽管取得了重大进步,但挑战仍在处理高维输入,设计有效的奖励系统以及在动态场景中确保稳健的性能[4]。本研究通过实施一个模块化框架来解决这些问题,该框架将有效的数据预处理,可扩展体系结构和迭代培训策略集成在一起。2。文献调查加强学习(RL)已确立自己的强大方法,用于开发能够在动态和高维环境中运行的智能代理。其在多人游戏中的应用引起了重大的研究兴趣,从而在自适应策略和强大的决策框架方面取得了进步。Togelius和Yannakakis(2017)强调了深度强化学习(DRL)对通用视频游戏AI的潜力,强调了环境界面的重要性,在这些界面中,代理可以感知国家,采取行动并根据反馈来优化决策。这种方法已被证明有效地开发了能够响应复杂游戏机制的适应性代理。同样,Vinyals等人。(2019)展示了DRL在Starcraft II中的功能,在那里,代理商学会了通过广泛的
主要关键词