Loading...
机构名称:
¥ 1.0

1 简介 使用神经网络 (NN) 学习行动策略 π 在游戏中非常成功 (Mnih 等人2013;Sil- ver 等人2018),并在 AI 规划中越来越受欢迎 (Is- sakkimuthu、Fern 和 Tadepalli 2018;Groshev 等人2018;Garg、Bajpai 和 Mausam 2019;Toyer 等人2020;Karia 和 Srivastava 2021)。策略 π 可以在动态环境中做出实时决策,只需根据当前状态对其进行评估即可获得下一步行动。然而,这种方法显然存在潜在的政策“缺陷”,即不良或致命的政策行为。测试(试图找到发生此类行为的情况)是解决这一问题的自然范例。自动测试用例生成可用于评估 π 的质量,并最终通过广泛的测试来证明 π 是可信的。先前关于顺序决策测试的研究控制环境行为(MDP 中的状态转换选择),并尝试找到满足故障条件 ϕ 的环境决策序列(例如,Dreossi 等人2015;Akazaki 等人2018;Koren 等人2018;Ernst 等人2019;Lee 等人2020)。但如果失败

AI 规划中的自动行动策略测试

AI 规划中的自动行动策略测试PDF文件第1页

AI 规划中的自动行动策略测试PDF文件第2页

AI 规划中的自动行动策略测试PDF文件第3页

AI 规划中的自动行动策略测试PDF文件第4页

AI 规划中的自动行动策略测试PDF文件第5页