马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
在过去的几年中,在扩展具有处理对象的能力的概率和随机框架方面有很多工作,例如。(Anderson等,2002; DˇSeroski等,2001; Friedman等,1999; Kersting&de Raedt,2001; Kersting等,2003; Muggleton,1996)。从归纳逻辑程序或关系学习的角度来看,这些问题是对使用关系或计算逻辑表示的命题表示的升级。已经报道了这一方向的各种成功。的确,Friedman等人。(1999)以及Kersting和De Raedt(2001)升级贝叶斯网络,Muggleton(1996)升级随机传统语法,Anderson等。(2002)和Kerting等。(2003)升级(隐藏)马尔可夫模型。本文的第一个贡献是一种新颖的形式主义的介绍,称为逻辑马尔可夫决策计划(LOMDPS),该计划将马尔可夫决策过程与计算逻辑相结合。结果是
imtbs-tsp.eu › ~pieczyn PDF 作者:L Fouque · 被引用次数:41 — 作者:L Fouque · 被引用次数:41 在证据框架中进行多传感器图像融合和分类,...通过使用混合分布算法,即ICE 算法来完成。
imtbs-tsp.eu › ~pieczyn PDF 作者:L Fouque · 被引用次数:41 — 作者:L Fouque · 被引用次数:41 lem of multi-sensor image fusion and classification in an evidential framework, ... done by using a mixture distribution algorithm, the.ICE algorithm.
imtbs-tsp.eu › ~pieczyn PDF 作者:L Fouque · 被引用次数:41 — 作者:L Fouque · 被引用次数:41 在证据框架中进行多传感器图像融合和分类,...通过使用混合分布算法,即ICE 算法来完成。
imtbs-tsp.eu › ~pieczyn PDF 作者:L Fouque · 被引用次数:41 — 作者:L Fouque · 被引用次数:41 在证据框架中进行多传感器图像融合和分类,...通过使用混合分布算法,即ICE 算法来完成。