带有物理信息的神经网络的时间依赖性狄拉克方程:计算和属性
机构名称:
¥ 3.0

在这项工作中,我们提出了一个多目标决策框架,该框架可以通过策略比较来学习偏好,从而使用户偏好与目标相比不同。我们的模型由具有矢量值奖励功能的已知马尔可夫决策过程组成,每个用户都有未知的偏好向量向量,该向量表达了每个目标的相对重要性。目标是有效地计算给定用户的近似策略。我们考虑两个用户反馈模型。我们首先解决了向用户提供两个策略并将其首选策略作为反馈的情况。然后,我们转到另一个用户反馈模型,在该模型中,用户提供了两组小的代表轨迹集,并选择了首选。在这两种情况下,我们都建议使用多种比较查询为用户找到几乎最佳的策略,这些查询在目标数量中逐渐扩展。

带有物理信息的神经网络的时间依赖性狄拉克方程:计算和属性

带有物理信息的神经网络的时间依赖性狄拉克方程:计算和属性PDF文件第1页

带有物理信息的神经网络的时间依赖性狄拉克方程:计算和属性PDF文件第2页

带有物理信息的神经网络的时间依赖性狄拉克方程:计算和属性PDF文件第3页

带有物理信息的神经网络的时间依赖性狄拉克方程:计算和属性PDF文件第4页

带有物理信息的神经网络的时间依赖性狄拉克方程:计算和属性PDF文件第5页

相关文件推荐

计算物理
2024 年
¥1.0
量子物理与计算
2022 年
¥1.0
狄拉克方程.pdf
2021 年
¥37.0