在连续行动加强学习中探索反事实

强化学习(RL)代理能够在动态环境中做出复杂的决策,但其行为通常仍然不透明。当代理执行一系列动作(例如对糖尿病患者施用胰岛素或控制航天器的着陆)时,很少清楚在替代选择下结果如何改变结果。这个挑战变得特别明显[…]

来源:ΑΙhub

强化学习(RL)代理能够在动态环境中做出复杂的决策,但其行为通常仍然不透明。当代理执行一系列动作(例如对糖尿病患者施用胰岛素或控制航天器的着陆)时,很少清楚在替代选择下结果如何改变结果。在涉及连续动作空间的设置中,这一挑战尤为明显,在这种设置中,决策不仅限于离散的选项,而是跨越了一系列实用值的大小。最近的工作中介绍的框架旨在在这种情况下产生反事实解释,提供一种结构化方法来探索“如果”场景。

反事实说明

为什么反对RL的反事实?

在RL中反事实推理的价值在具有高风险,时间扩大后果的情况下变得显而易见。上面的示例说明了1型糖尿病中血糖控制的情况。在这里,RL药物会根据生理信号定期确定胰岛素剂量。在标记的轨迹中,患者的血糖最初上升到最终下降,从而获得适度的总奖励。在此轨迹下方,三个反事实替代方案 - ,,和 - 示出了略有不同的胰岛素剂量决策的潜在结果。其中,比累积奖励更高,而性能则更糟。值得注意的是,通过与原始动作的最小偏差,可以实现最佳结果,并满足临床动机的约束:当葡萄糖低于预定义阈值时,给予固定的胰岛素剂量。

最小偏差的反事实策略

该方法不是为个别示例构建一次性解释,而是学习可推广的反事实策略。这可以使观察到的行为分布之间一致,可扩展的解释产生。

了解更多

标签:

ijcai