估计隐藏状态(解码)的效率算法,用于推断出(隐藏的)状态的最可能的(隐藏)序列的序列,由Viterbi基于动态编程来描述,并且是O(n 2·T)计算复杂性的。
算法1独立和分散学习动力学初始化:n 0(s)= 0,∀s∈S; 〜n 0 i(s,a i)= 0,〜q 0 i(s,a i)= 0,π0i(s,a i)= 1 / | A I | ,∀(i,a i,s)和θi∈(0,1)。在迭代0中,每个玩家都会观察S0∈S,选择其动作A 0 I〜π0 I(S 0),然后观察R 0 I = U I(S 0,A 0)。在每个迭代中t = 1,2,...,每个玩家都会观察到S t,并且独立更新{n t,〜n t i,〜q t i,πt i}。更新n t,〜n t i:
马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
我们感兴趣的是设计计算高效的架构来解决有限时域马尔可夫决策过程 (MDP),这是一种流行的多阶段决策问题建模框架 [1,22],具有广泛的应用,从数据和呼叫中心的调度 [12] 到间歇性可再生资源的能源管理 [13]。在 MDP 中,在每个阶段,代理都会根据系统状态做出决策,从而获得即时奖励,并相应更新状态;代理的目标是找到一个最优策略,使时间范围内的总预期奖励最大化。虽然寻找解决 MDP 的有效算法一直是一个活跃的研究领域(有关调查请参阅 [20,17]),但我们将采取不同的方法。我们不是从头开始创建新算法,而是研究如何设计架构,以创造性的方式利用现有的 MDP 算法作为“黑匣子”,以获得额外的性能提升。作为朝这个方向迈出的第一步,我们提出了时间串联启发式方法,它沿时间轴采用分而治之的方法:对于具有水平线 { 0 ,... ,T − 1 } 的 MDP,我们将原始问题实例(I 0)在水平线上划分为两个子实例:0 ,... ,T
在过去的几年中,在扩展具有处理对象的能力的概率和随机框架方面有很多工作,例如。(Anderson等,2002; DˇSeroski等,2001; Friedman等,1999; Kersting&de Raedt,2001; Kersting等,2003; Muggleton,1996)。从归纳逻辑程序或关系学习的角度来看,这些问题是对使用关系或计算逻辑表示的命题表示的升级。已经报道了这一方向的各种成功。的确,Friedman等人。(1999)以及Kersting和De Raedt(2001)升级贝叶斯网络,Muggleton(1996)升级随机传统语法,Anderson等。(2002)和Kerting等。(2003)升级(隐藏)马尔可夫模型。本文的第一个贡献是一种新颖的形式主义的介绍,称为逻辑马尔可夫决策计划(LOMDPS),该计划将马尔可夫决策过程与计算逻辑相结合。结果是
交互协议:在每个时间步骤 h ∈ [ H ] 中,代理和规划器观察状态 skh ∈S 并选择自己的动作 akh 和 bkh 。然后,下一个状态由环境 skh +1 ∼ P h ( · | skh , bkh ) 生成,并且它们观察
在人类大脑映射之初,功能解剖学的两个原理支撑了大多数分布式大脑反应的概念和分析:即功能分离和整合。目前有两种主要方法来表征功能整合。第一种是从定向有效连接的角度对连接组学进行机械建模,它介导神经元信息传递和神经回路的动态。第二种现象学方法通常从内在大脑网络、自组织临界性、动态不稳定性等方面来表征无向功能连接(即可测量的相关性)。本文介绍了一种有效连接的处理方法,它说明了内在大脑网络和临界动力学的出现。它以马尔可夫毯的概念为基础,马尔可夫毯在远离平衡系统的自组织中起着根本性的作用。利用重正化群的装置,我们表明,网络神经科学中发现的大部分现象学是神经元状态的特定分区在逐渐粗化的尺度上出现的属性。因此,它提供了一种将有向图上的动态与内在脑网络现象学联系起来的方法。
摘要:模型检查技术已扩展到分析以量子马尔可夫链(经典马尔可夫链的扩展)表示的量子程序和通信协议。为了指定定性时间属性,使用基于子空间的量子时间逻辑,该逻辑建立在 Birkhoffer-von Neumann 原子命题之上。这些命题确定量子态是否位于整个状态空间的子空间内。在本文中,我们提出了基于测量的线性时间时间逻辑 MLTL 来检查定量属性。MLTL 建立在经典线性时间时间逻辑 (LTL) 的基础上,但引入了量子原子命题,可在测量量子态后推断概率分布。为了便于验证,我们扩展了 Agrawal 等人 (JACM 2015) 描述的基于符号动力学的随机矩阵技术,以通过特征值分析处理更一般的量子线性算子(超算子)。此扩展使得开发一种有效的算法来根据 MLTL 公式对量子马尔可夫链进行近似模型检查成为可能。为了证明我们的模型检查算法的实用性,我们使用它来同时验证量子和经典随机游动的线性时间特性。通过此验证,我们证实了 Ambainis 等人(STOC 2001)先前发现的量子游动相对于经典随机游动的优势,并发现了量子游动独有的新现象。