马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
马尔可夫决策过程 (MDP) 为在不确定的情况下对顺序决策进行建模提供了一个广泛的框架。MDP 有两种类型的变量:状态变量 st 和控制变量 dr,它们都按时间 t = 0、1、2、3 .... , T 进行索引,其中时间范围 T 可能是无穷大。决策者或代理可以用一组原语 (u, p, ~) 表示,其中 u(st, dr) 是代表代理在时间 t 的偏好的效用函数,p(st+ 1Is, d,) 是代表代理对不确定未来状态的主观信念的马尔可夫转移概率,fit(0, 1) 是代理在未来时期内折现效用的比率。假设代理是理性的:它们的行为遵循最优决策规则 d t = (~(St),该规则求解 vr(s) - max~ Eo { E r o fltu(s,, d,)l So = s},其中 Ea 表示对由决策规则 6 引起的受控随机过程 {s,,dt} 的期望。动态规划方法 min9 提供了一种建设性的过程,用于计算 6,使用价值函数 V r 作为“影子价格”,将复杂的随机/多周期优化问题分散为一系列更简单的确定性/静态优化问题。
我们感兴趣的是设计计算高效的架构来解决有限时域马尔可夫决策过程 (MDP),这是一种流行的多阶段决策问题建模框架 [1,22],具有广泛的应用,从数据和呼叫中心的调度 [12] 到间歇性可再生资源的能源管理 [13]。在 MDP 中,在每个阶段,代理都会根据系统状态做出决策,从而获得即时奖励,并相应更新状态;代理的目标是找到一个最优策略,使时间范围内的总预期奖励最大化。虽然寻找解决 MDP 的有效算法一直是一个活跃的研究领域(有关调查请参阅 [20,17]),但我们将采取不同的方法。我们不是从头开始创建新算法,而是研究如何设计架构,以创造性的方式利用现有的 MDP 算法作为“黑匣子”,以获得额外的性能提升。作为朝这个方向迈出的第一步,我们提出了时间串联启发式方法,它沿时间轴采用分而治之的方法:对于具有水平线 { 0 ,... ,T − 1 } 的 MDP,我们将原始问题实例(I 0)在水平线上划分为两个子实例:0 ,... ,T
随机步行(或马尔可夫链)是随机模型,在理论计算机科学中广泛使用。从经典上讲,通过图定义随机步行,其中节点是过程的可能状态,边缘代表可能的过渡。在每个步骤中,根据某些概率分布选择了当前状态的外向边缘,并达到相应的状态。马尔可夫链的理论是对许多算法的分析的基础:一个显着的例子是Schönin的算法,这是最知名的令人满意的经典算法之一(SAT)问题[1]。马尔可夫连锁店的一个重要属性是所谓的打击时间,它量化了我们需要执行的步行数量(预期),以达到或达到一些固定的目标状态,但给定一些初始条件。对打击时间的分析是搜索问题的强大工具[2,3,4,5],因为这些数量通常与复杂性指标密切相关。作为一个例子,请考虑令人满意的问题:给定F(x),我们从某个分配x 0开始(例如,x 0 =(0,。。。,0)),在每个步骤中,我们选择一个变量以随机均匀地翻转。这可以正式化为在超立方体上的随机步行,并且给定F的分配x ∗,从x 0到x ∗的击中时间平均告诉我们要达到该分配所需的步骤数。一种运行Markov链的算法并在每个步骤检查当前状态是否满足F的时间复杂性与打击时间成正比。在过去的几十年中,几项研究工作致力于将随机步行的概念扩展到量子设置,目的是实现某些速度
平行MCMC技术使用多个建议来获得超过MCMC算法(例如大都市)的效率提高(Metropolis等人。1953; Hastings 1970)及其后代仅使用一个建议。Neal(2003)首先通过提出候选状态的“池”并使用动态编程来选择有效的MCMC过渡来推断隐藏的马尔可夫模型状态。接下来,Tjelmeland(2004)考虑了一般环境中的推论,并显示了如何维持任意数字P的详细平衡。考虑在R D上定义的概率分布π(dθ),该概率密度π(θ)相对于Lebesgue度量,即π(dθ)=:π(θ)dθ。要从目标分布π生成样品,我们制作了满足
交互协议:在每个时间步骤 h ∈ [ H ] 中,代理和规划器观察状态 skh ∈S 并选择自己的动作 akh 和 bkh 。然后,下一个状态由环境 skh +1 ∼ P h ( · | skh , bkh ) 生成,并且它们观察
在人类大脑映射之初,功能解剖学的两个原理支撑了大多数分布式大脑反应的概念和分析:即功能分离和整合。目前有两种主要方法来表征功能整合。第一种是从定向有效连接的角度对连接组学进行机械建模,它介导神经元信息传递和神经回路的动态。第二种现象学方法通常从内在大脑网络、自组织临界性、动态不稳定性等方面来表征无向功能连接(即可测量的相关性)。本文介绍了一种有效连接的处理方法,它说明了内在大脑网络和临界动力学的出现。它以马尔可夫毯的概念为基础,马尔可夫毯在远离平衡系统的自组织中起着根本性的作用。利用重正化群的装置,我们表明,网络神经科学中发现的大部分现象学是神经元状态的特定分区在逐渐粗化的尺度上出现的属性。因此,它提供了一种将有向图上的动态与内在脑网络现象学联系起来的方法。
摘要:模型检查技术已扩展到分析以量子马尔可夫链(经典马尔可夫链的扩展)表示的量子程序和通信协议。为了指定定性时间属性,使用基于子空间的量子时间逻辑,该逻辑建立在 Birkhoffer-von Neumann 原子命题之上。这些命题确定量子态是否位于整个状态空间的子空间内。在本文中,我们提出了基于测量的线性时间时间逻辑 MLTL 来检查定量属性。MLTL 建立在经典线性时间时间逻辑 (LTL) 的基础上,但引入了量子原子命题,可在测量量子态后推断概率分布。为了便于验证,我们扩展了 Agrawal 等人 (JACM 2015) 描述的基于符号动力学的随机矩阵技术,以通过特征值分析处理更一般的量子线性算子(超算子)。此扩展使得开发一种有效的算法来根据 MLTL 公式对量子马尔可夫链进行近似模型检查成为可能。为了证明我们的模型检查算法的实用性,我们使用它来同时验证量子和经典随机游动的线性时间特性。通过此验证,我们证实了 Ambainis 等人(STOC 2001)先前发现的量子游动相对于经典随机游动的优势,并发现了量子游动独有的新现象。