进化增强学习(EVORL)已成为一种有前途的方法,可以通过将进化计算(EC)与RL整合(EC)范式来克服传统强化学习(RL)的局限性。但是,基于人群的EC的性质大大提高了计算成本,从而限制了大规模设置中算法设计选择和可扩展性的探索。为了应对这一挑战,我们介绍了Evorl 1,这是针对GPU加速的第一个端到端EVORL框架。该框架对加速器(包括环境模拟和EC过程)执行了整个培训管道,通过矢量化和编译技术利用层次并行性,以实现较高的速度和可扩展性。此设计可以在一台计算机上进行有效培训。In addition to its performance-oriented design, EvoRL offers a comprehensive platform for EvoRL research, encompassing implementations of traditional RL algorithms (e.g., A2C, PPO, DDPG, TD3, SAC), Evolutionary Algorithms (e.g., CMA-ES, OpenES, ARS), and hybrid EvoRL paradigms such as Evolutionary-guided RL (例如,ERL,CEM-RL)和基于群体的自动(例如PBT)。该框架的模块化体系结构和用户友好的接口使研究人员可以无缝整合新组件,自定义算法并进行公平的基准测试和消融研究。该项目是开源的,可在以下网址找到:https://github.com/emi-group/evorl。
摘要 - 在复杂解决问题中的增强学习和进化算法(EAS)的局限性时,进化增强学习(EVORL)已成为协同解决方案。Evorl整合了EAS和增强学习,为培训智能代理提供了有希望的途径。该系统评价首先通过Evorl的技术背景导航,研究了EAS和强化学习算法之间的共生关系。然后,我们深入研究了EAS和强化学习所面临的挑战,探索了它们的相互作用和对Evorl功效的影响。此外,审查强调了解决与Evorl当前景观内有关可伸缩性,适应性,样本效率,对抗性鲁棒性,道德和公平性有关的开放性问题的必要性。最后,我们提出了Evorl的未来方向,强调了努力增强自我适应和自我改善,概括,可解释性,可解释性等的研究途径。作为研究人员和从业人员的综合资源,这项系统的审查提供了有关Evorl现状的见解,并提供了指南,以推动其在不断发展的人工智能景观中的能力。
大型语言模型(LLMS)传统上依赖手动及时工程,这可能是耗时且容易受到人类偏见的影响。在本文中,我们提出了一个基于进化增强学习原理(EVORL)的对抗性进化增强学习(AERL)框架[Lin等,2023],以实现对AI剂的持续自我投资。我们的方法迭代生成,测试和完善了通过四个组件的提示或配置:(1)进化提示作者/改进器/改善者,(2)进化模型,(3)对抗模型和(4)法官。通过将候选模型暴露于对抗性的场景中,并通过进化运算符选择最佳变体,AERL促进了强大的,域特异性的解决方案,而无需重新进行过多的人类试验和错误。受到Evorl [Bai等,2023]中多目标优化技术的启发和对抗性训练方法[Goodfellow等人,2014],我们的经验性和有意义的示例来自分散财务(DEFI)(DEFI),代码生成,并且数学推理说明了我们框架的多功能性。结果表明,对抗性的进化策略可以在维持高适应性和性能的同时,诱导地减少人驱动的猜测。