获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
自动驾驶汽车(AVS)在没有人类干预的情况下做出决定。因此,确保AVS的可靠性至关重要。尽管在AV开发方面进行了重大研究和发展,但由于其操作环境的复杂性和无预测性,它们的可靠性仍然是一个重大挑战。基于方案的测试在各种驾驶场景下评估了AVS,但无限数量的潜在方案突出了识别可能违反安全或功能要求的关键场景的重要性。此类要求本质上是相互依存的,需要同时进行测试。为此,我们提出了MOEQT,这是一种新型的多目标增强学习(MORL)的方法,以生成关键场景,同时测试相互依存的安全性和功能要求。MOEQT将包络Q学习作为Morl算法,该算法会动态调整多目标权重以平衡多个目标之间的相对重要性。MOEQT通过动态与AV环境进行动态交互,生成关键场景,以违反多PLE要求,从而确保全面的AV测试。我们使用高级端到端AV控制器和高保真模拟器评估MOEQT,并将MOEQT与两个基准进行比较:随机策略和具有加权奖励函数的单对象RL。我们的评估结果表明,MOEQT在确定违反多个要求的关键方案方面取得了更好的表现。