多目标增强学习(MORL)已成为强化学习(RL)的重要子场[13,24]。到目前为止,知识主要从单目标RL(SORL)流向Morl,SORL算法创新适应了多个目标的背景[2,6,22,34]。本文反驳了这种趋势,正如我们认为,基于公用事业的范式广泛用于Morl [5,13,21],与SORL具有相关性和好处。我们提出了一个基于公用事业的RL(UBRL),统一SORL和MORL的一般框架,并讨论了单目标问题的好处 - 特别是多政策学习的潜力,可以更大的灵活性和对代理行为的决策者控制。我们还从Morl研究中突出了有关基于公用事业方法的算法含义的经验教训,作为未来单目标UBRL研究的指南。
多目标加固学习(MORL)方法通过学习最大化的政策来解决现实世界中的问题,以不同的用户偏好加权。典型方法假定目标在整个代理人的寿命中都没有变化。,在某些现实情况下,代理商可能会遇到动态改变学习的方法,即在不同的学习阶段,不同的矢量值奖励功能。在概率公式或算法设计中尚未考虑这个发展目标的问题。为了解决这个问题,我们首次将设置作为连续的MORL(CMORL)问题,这是为了通过学习过程的目标发展。随后,我们提出了通过Re Ward Model Re re Hearsal(Cor E 3)学习的c ontinual多O型信息,从而使动态代理网络不合转,以快速适应新目标。此外,我们开发了一种奖励模型彩排技术,以恢复以前目标的重新信号,从而减轻灾难性的遗忘。在四个CMORL基准测试基准上进行的实验展示了Cor E 3有效地学习满足所有遇到的目标的不同偏好的政策,并以171%的态度表现出最佳的基线,突显了Cor E 3的能力,可以处理具有渐进目标的情况。
自动驾驶汽车(AVS)在没有人类干预的情况下做出决定。因此,确保AVS的可靠性至关重要。尽管在AV开发方面进行了重大研究和发展,但由于其操作环境的复杂性和无预测性,它们的可靠性仍然是一个重大挑战。基于方案的测试在各种驾驶场景下评估了AVS,但无限数量的潜在方案突出了识别可能违反安全或功能要求的关键场景的重要性。此类要求本质上是相互依存的,需要同时进行测试。为此,我们提出了MOEQT,这是一种新型的多目标增强学习(MORL)的方法,以生成关键场景,同时测试相互依存的安全性和功能要求。MOEQT将包络Q学习作为Morl算法,该算法会动态调整多目标权重以平衡多个目标之间的相对重要性。MOEQT通过动态与AV环境进行动态交互,生成关键场景,以违反多PLE要求,从而确保全面的AV测试。我们使用高级端到端AV控制器和高保真模拟器评估MOEQT,并将MOEQT与两个基准进行比较:随机策略和具有加权奖励函数的单对象RL。我们的评估结果表明,MOEQT在确定违反多个要求的关键方案方面取得了更好的表现。
• 航天器概念 - 历史和问题…………..……………..….. - Ganswindt 和 Tsiolkovsky……………...…… - Noordung,“Wohnrad”,1928 年………………….. - Von Braun 和 Les Dorr………………………. - Oberth 和 Payne…………………….……….. - 洛克希德 (Kramer 和 Byers)……………….. - NASA Langley 和北美,1962 年…. - NASA Langley 和 Douglas,“MORL”,1966 年.. - 空间站 V (Kubrick 和 Clarke)………. - Gilruth 和 German …………………….…….. - O’Neill,“Model 1”,1974 年………………………. - Driggers,1975 年………………………………… - 斯坦福环面,1975 年…………………………. - O’Neill,《Island 1》,1977 年…………………………. - Vaik、Engel 和 Shettler,1977 年……………….… - Welch,1984 年……………………………….… - Schultz、Rupp、Hajos 和 Butler,1987 年……... - Staeble (1987) 和 Lemke (1988)……….….. - 洛克希德马丁载人火星飞船……
• 航天器概念 - 历史和问题…………..……………..….. - Ganswindt 和 Tsiolkovsky……………...…… - Noordung,“Wohnrad”,1928 年………………….. - Von Braun 和 Les Dorr……………………….- Oberth 和 Payne…………………….……….. - 洛克希德 (Kramer 和 Byers)……………….. - 美国国家航空航天局兰利和北美,1962 年….- 美国国家航空航天局兰利和道格拉斯,“MORL”,1966 年.. - 空间站 V (Kubrick 和 Clarke)……….- Gilruth 和 German …………………….…….. - O'Neill,“Model 1”,1974 年……………………….- Driggers,1975年………………………………… - Stanford Torus,1975年………………………….- O'Neill,“Island 1”,1977年……………………….- Vaik、Engel 和 Shettler,1977年…………….… - Welch,1984年………………………………….… - Schultz、Rupp、Hajos 和 Butler,1987年……... - Staeble (1987) 和 Lemke (1988)……….….. - Lockheed Martin 载人火星飞船…