摘要:强化学习是各个领域的重要技术,尤其是在加固学习的自动化机器学习中(AUTORL)。在组合优化中将转移学习(TL)与Autorl的集成是需要进一步研究的领域。本文同时采用Autorl和TL来有效地应对组合优化的挑战,特别是不对称的旅行推销员问题(ATSP)和顺序排序问题(SOP)。进行了统计分析,以评估TL对上述问题的影响。fur-hoverore,将auto_tl_rl算法作为一种新颖的贡献引入,结合了自动和TL方法。经验结果强烈支持这种整合的有效性,在比传统技术效率明显高得多的解决方案中,初步分析结果提高了85.7%。此外,在13个实例中减少了计算时间(即在92.8%的模拟问题中)。TL集成模型的表现优于最佳基准,证明其优越的收敛性。AUTO_TL_RL算法设计允许在ATSP和SOP域之间进行平滑的过渡。在全面的评估中,在分析的78%的实例中,Auto_TL_RL明显优于传统方法。
进化增强学习(EVORL)已成为一种有前途的方法,可以通过将进化计算(EC)与RL整合(EC)范式来克服传统强化学习(RL)的局限性。但是,基于人群的EC的性质大大提高了计算成本,从而限制了大规模设置中算法设计选择和可扩展性的探索。为了应对这一挑战,我们介绍了Evorl 1,这是针对GPU加速的第一个端到端EVORL框架。该框架对加速器(包括环境模拟和EC过程)执行了整个培训管道,通过矢量化和编译技术利用层次并行性,以实现较高的速度和可扩展性。此设计可以在一台计算机上进行有效培训。In addition to its performance-oriented design, EvoRL offers a comprehensive platform for EvoRL research, encompassing implementations of traditional RL algorithms (e.g., A2C, PPO, DDPG, TD3, SAC), Evolutionary Algorithms (e.g., CMA-ES, OpenES, ARS), and hybrid EvoRL paradigms such as Evolutionary-guided RL (例如,ERL,CEM-RL)和基于群体的自动(例如PBT)。该框架的模块化体系结构和用户友好的接口使研究人员可以无缝整合新组件,自定义算法并进行公平的基准测试和消融研究。该项目是开源的,可在以下网址找到:https://github.com/emi-group/evorl。