当一方采取另一方的行动,导致利益冲突时,就会出现主要代理问题。经济文献已经广泛研究了主要代理问题,最近的工作将其扩展到了更复杂的方案 - 诸如马尔可夫决策过程(MDPS)。在此过程中,我们通过调查预算限制下的奖励成型如何改善委托人的效用,进一步探讨了这一研究。我们研究了两人Stackelberg游戏,在该游戏中,校长和代理商具有不同的奖励功能,而代理商为两个玩家选择了MDP政策。委托人向代理人提供额外的奖励,代理人自私地选择其政策以最大程度地提高奖励,这是原始和提供的奖励的总和。我们的结果确定了问题的NP硬度,并为两类的概述提供多项式近似算法:随机树和具有有限范围的确定性决策过程。
摘要 - 我们考虑称为消费马尔可夫决策过程的形式主义的定性策略综合。这种形式主义可以模拟在随机环境中资源约束下运行的代理的动力学。所提出的算法就模型的表示而在多项式上起作用,并合成策略,以确保在没有资源耗尽的概率1的情况下(一次或无限多次)达到给定的目标状态(一次或无限多次)。特别是,当资源数量变得太低以至于无法安全地继续执行任务时,战略将代理商的过程更改为指定的一套重新加载态之一,在该州中,代理商将资源补充资源已充分满足;凭借足够数量的资源,代理商试图再次实现任务。我们还提出了两种启发式方法,试图减少代理商需要实现给定任务的预期时间,这是实践计划中重要的参数。实施了所提出的算法,数值示例表明(i)基于消费马尔可夫决策过程的计划方法的有效性(在计算时间)和(ii)两种启发式方法对现实示例中计划的积极影响。
在本周的教程中,我们将开始考虑将“现实世界”概率建模为增强学习问题。i引用“现实世界”,因为我们将在学术界典型地求助于所谓的“玩具问题”。部分是因为它们更易于编写,并且更容易限制范围。的一部分是因为它允许我们将可控制的孔戳入问题中,并使局限性和假设更加清晰。与您没有潜在的考虑(尤其是从您的日常经验中造成更现实的问题),这会触发许多我们不能总是预测的个性化思想),而是一次介绍给他们。,当您从一开始就接受它是“故事”而不是完全现实时,您可以专注于我们试图交流的内容要容易得多。
这项研究研究了在两个不同的马尔可夫决策过程(MDP)环境中应用了四个强化学习(RL)算法的算法(RL)算法的表现:交通交叉点问题和仓库机器人问题。在交通交叉点问题中,发现策略的收敛速度快于价值迭代,而Q学习的速度比SARSA更快。在仓库机器人问题中,Q学习和SARSA都成功地学习了导航策略,而Q学习更具对环境变化的支持。研究表明,RL算法对重要的MDP参数(例如折现因子,过渡概率和奖励功能)高度敏感,这意味着需要仔细调整这些参数。此外,该研究还探讨了计划者与代理商之间的权衡,从而在融合,稳定性和效率方面进行了权衡。使用Python和各种库进行实施,这些发现提供了有关如何在动荡的环境中应用RL技术的见解,并建议将来改善算法设计和实现的方法。
强化学习(RL)(Sutton和Barto 2018)是一种基于抽样的学习控制器的方法。受动物行为模型的启发,RL代理与环境相互作用,并在数值奖励方面收到其性能的反馈,这些奖励会加强或惩罚某些行为。近年来,这种学习方法取得了令人印象深刻的结果(Mnih等人2015; Silver等。2016)。但是,无法精确捕获设计师在奖励信号中的意图可能会导致代理学习意外行为(Amodei等人。2016)。作为一种响应,正式语言(尤其是线性时间逻辑(LTL)和ω-规范语言)已被提出明确捕获学习目标。尽管这些语言取得了实际的成功(Hahn等人2019; Bozkurt等。2020),它们的理论复杂性是相互疏忽的。在本文中,我们提出并研究了一种基于模型的LTL和ω-型语言的近似RL算法。大概是正确的(PAC)学习(Valiant 1984)是一种正式化学习算法保证的框架:用户选择两个参数,ε> 0和δ> 0。学习算法是(有效的)PAC如果将其转换为ε接近最佳的溶液,使用多项式样本数量至少为1-δ。在RL中,已经提出了许多PAC学习算法的折扣和平均奖励(Kakade 2003; Brafman和
我们研究了具有已知动态但未知奖励功能的平均奖励和交流马尔可夫决策过程(MDP)中的遗憾最小化。尽管在此类MDP中学习比完全未知的MDP更容易,但它们仍然在很大程度上是挑战,因为它们包括特殊情况,例如组合半伴侣等大类问题。以统计上有效的方式利用遗憾最小化的过渡功能的知识似乎在很大程度上没有探索。猜想,即使有已知的过渡,我们即使在通用MDP中实现精确的最佳性也是NP-HARD,因此我们专注于计算有效的放松,以实现Order-Timpimal-Timal-Topimal-Mic MIC的遗憾而不是精确的最佳性。我们通过基于流行的匪徒最小经验差异策略引入一种新颖的算法来填补这一空白。提出的算法的关键组成部分是一个经过精心设计的停止标准,利用固定策略引起的复发类别。我们得出了一种非渐近,问题依赖性和对数的遗憾,该算法依赖于利用该结构的新颖遗憾分解。我们进一步提供了有效的实施和实验,以说明其有希望的经验绩效。关键字:平均奖励马尔可夫决策过程,遗憾的最小化,对数遗憾,马尔可夫链,经常性课程
背景。马尔可夫决策过程(MDP)是表现出随机行为和受控行为的动态系统的标准模型[18]。应用包括控制理论[5,1],运营研究和金融[2,6,20],人工智能和机器学习[23,21]和正式验证[9,3]。MDP是一个有向图,其中状态是随机或控制的。在随机状态下,根据固定概率分布选择下一个状态。在受控状态下,控制器可以在所有可能的后继状态下选择分布。通过修复控制器(和初始状态)的策略,可以获得MDP运行的概率空间。控制器的目标是优化运行中某些目标函数的预期值。实现ε最佳的策略类型(分别最佳值称为其策略复杂性。过渡奖励和liminf目标。MDP通过分配实现的奖励结构(分别为整数或理性)对每个过渡的奖励。每次运行都会诱导看到过渡奖励r 0 r 1 r 2的无限序列。。。。我们考虑了该序列的LIM INF,以及其他两个重要的衍生序列。1。点回报考虑了序列r 0 r 1 r 2的lim inf。。。直接。
▶确定性世界中:计划 - 从启用到目标的行动顺序。▶MDP,我们需要一个策略π:s→a。▶每个可能状态的动作。为什么?▶最佳政策是什么?
•MDP空间中V ∗和Q ∗的Lipschitz连续性的理论研究; •根据MDP之间的局部距离提出的实用,非负转移方法; •在终身RL设置中应用此转移方法的PAC-MDP算法的建议和研究。
通常,马尔可夫决策过程是“一个离散的随机控制过程。它提供了一个数学框架,用于在结果部分是随机的,部分地在决策者控制的情况下对决策进行建模。MDP是有用的研究通过动态编程解决的优化问题。”(Wikipedia)