马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
在过去的几年中,在扩展具有处理对象的能力的概率和随机框架方面有很多工作,例如。(Anderson等,2002; DˇSeroski等,2001; Friedman等,1999; Kersting&de Raedt,2001; Kersting等,2003; Muggleton,1996)。从归纳逻辑程序或关系学习的角度来看,这些问题是对使用关系或计算逻辑表示的命题表示的升级。已经报道了这一方向的各种成功。的确,Friedman等人。(1999)以及Kersting和De Raedt(2001)升级贝叶斯网络,Muggleton(1996)升级随机传统语法,Anderson等。(2002)和Kerting等。(2003)升级(隐藏)马尔可夫模型。本文的第一个贡献是一种新颖的形式主义的介绍,称为逻辑马尔可夫决策计划(LOMDPS),该计划将马尔可夫决策过程与计算逻辑相结合。结果是
摘要: - 本文介绍了隐藏的马尔可夫模型在波兰语言中的文本生成中的应用。开发了一个生成文本的程序,利用隐藏的马尔可夫模型。该程序使用参考文本来学习可能的字母序列。还讨论了文本处理的结果。提出的方法也可以在语音识别过程中有所帮助。键字: - 自然语言处理,文本生成,隐藏的马尔可夫1简介言语综合和识别的领域在过去30年中,由于蜂窝电话的开发,它被广泛使用。在最流行的语音综合方法和分析方法中,采用了隐藏的马尔可夫模型(HMM)[2,6]。隐藏的马尔可夫模型也可以在其他领域中使用,仅命名遗传学,复制DNA代码或经济学,以预测未来的经济结果[3,4]。hmm of str k的估计在学习过程中构成的k前值的序列基于给定位置中发生值的可能性。 计算学习载体中长度k +1单词的出现数量。 序列以相同的k字符开始构成上下文。 它们的计数可用于估计K +1位置中值发生的可能性[8]。 2跃迁矩阵过渡矩阵M定义了所有可能的先前序列功能中值x n+1的发生数量。 它还可能包含出现值x n+1而不是出现数量的可能性。估计在学习过程中构成的k前值的序列基于给定位置中发生值的可能性。计算学习载体中长度k +1单词的出现数量。序列以相同的k字符开始构成上下文。它们的计数可用于估计K +1位置中值发生的可能性[8]。2跃迁矩阵过渡矩阵M定义了所有可能的先前序列功能中值x n+1的发生数量。它还可能包含出现值x n+1而不是出现数量的可能性。然后从公式1计算出可能性,其中p ij是条件下元素x i的概率,前面的符号为x j。[8] p ij(x i /x j)= p(xi∩xj) /p(x j)(1)如果给定序列中n元素的值S n取决于元素n-1的值,则可以应用HMM的值来预测连续值。条件下元素x n+1发生的概率是:p(x n+1 /x n)给出:p(x n+1 /x n)(2)