摘要 - 自主驾驶中有效的决策依赖于其他交通代理的未来行为的准确推断。为了实现这一目标,我们提出了一个基于在线信念的行为预测模型,也提出了一个有效可观察到的马尔可夫决策过程(POMDP)的有效计划者。我们开发了一个基于变压器的预测模型,通过复发性神经记忆模型增强,以动态更新潜在信念状态并推断其他代理的意图。该模型还可以整合自我车辆的意图,以反映代理之间的闭环交互,并从离线数据和在线交互中学习。为了计划,我们采用了一个具有宏观动作的蒙特卡洛树搜索(MCT)计划者,从而通过搜索时间扩展的动作步骤来降低计算复杂性。在MCTS计划者中,我们使用预测的长期多模式轨迹来近似未来的更新,从而消除了迭代信念的更新和提高跑步效率。我们的方法还将深度Q学习(DQN)作为搜索事务,从而大大提高了MCTS计划者的性能。模拟环境的实验结果验证了我们提出的方法的有效性。在线信念更新模型可以显着提高预测的准确性和时间一致性,从而改善决策绩效。在MCT计划中,采用DQN作为搜索,大大提高了其性能,并优于基于模仿学习的先验。此外,我们表明,具有宏观动作的MCT计划在性能和效率方面大大优于香草方法。
摘要 — 脑机接口 (BCI) 为大脑和计算机系统之间提供了独特的通信渠道。经过大量研究和在众多应用领域的实施,为确保可靠和快速的数据处理而面临的众多挑战导致了混合 BCI (hBCI) 范式的产生,该范式由两个 BCI 系统的组合组成。然而,并非所有挑战都得到了妥善解决(例如重新校准、空闲状态建模、自适应阈值等),以允许在实验室外实施 hBCI。在本文中,我们回顾了基于脑电图的 hBCI 研究并指出了潜在的局限性。我们提出了一个基于部分可观马尔可夫决策过程 (POMDP) 的顺序决策框架来设计和控制 hBCI 系统。POMDP 框架是处理上述限制的绝佳候选框架。为了说明我们的观点,我们提供了一个使用基于 POMDP 的 hBCI 控制系统的架构示例,并讨论了未来的发展方向。我们相信,该框架将鼓励研究工作提供相关方法来整合来自 BCI 系统的信息,并将 BCI 推向实验室之外。索引术语 —EEG、混合 BCI、POMDP
摘要。在本研究中,实验测试了一个旨在推动人类操作员和无人机 (UAV) 团队之间互动的正式框架。目标是通过在线监控操作员的心理工作量 (MW) 和表现来控制代理之间的互动,从而提高人类的表现。所提出的解决方案使用应用于心脏特征的分类器进行 MW 估计。分类器输出作为人类 MW 状态观察引入部分可观察马尔可夫决策过程 (POMDP),该过程对人机交互动态进行建模,旨在控制交互以优化人类代理的表现。基于对操作员 MW 和表现的当前信念状态以及任务阶段,POMDP 策略解决方案控制应该向操作员建议或不建议哪些任务,假设无人机能够支持人类代理。使用一项实验对该框架进行了评估,其中 13 名参与者以不同的工作量水平执行了 2 次搜索和救援任务(有/无适应性)。根据文献,当使用自适应方法时,参与者感受到的 MW、身体和时间需求、挫折感和努力明显减少,他们的飞行得分也显著提高。这些发现证明了这种基于 POMDP 的自适应交互控制如何提高性能,同时减少操作员的工作量。
缩写/首字母缩写:DR - 糖尿病性视网膜病,QALY - 质量调整后的生活年,ICER - 渐进的成本效益比率,ADA - 美国糖尿病协会,AAO - 美国AAO - 美国眼科学会,TRI - TRI - TRI - TRI - AI-AI-IDIMATIC,AI - AI人工智能,POMD POMDP POMDP-POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDP POMDPP edema, NIN-DR - Non-intervention-needed DR, IN-DR – Intervention-needed DR, PT – Post- treatment, BL – Blindness, DE – Death, NPDR – Non-proliferative DR, PDR – Proliferative DR, WW – Wait and watch, CS – Clinical screening, WTP – Willingness to pay, HHS – Harris Health System, EMR – Electronic medical record, IRB – Institutional review董事会,n - 数字。
强化学习的应用(RL),尽管缺乏有关受控系统潜在状态的完整信息,但在该范围内,学会学会做出一系列裁定,即它们在国家的部分观察性下起作用,但无处不在。部分可观察到的RL可能很难 - 众所周知的信息理论结果表明,在最坏情况下,学习部分可用的马尔可夫决策过程(POMDP)需要指数级的样本。然而,这并不排除在学习是可以解决的庞大的POMDP的大型子类的存在。在本文中,我们确定了这样的子类,我们称之为弱揭示的POMDP。这个家庭排除了POMDP的病理实例,在某种程度上,观察结果是无知的,从而使学习艰难。我们证明,对于弱揭示了POMDP,一种简单的算法结合了乐观和最大似然估计(MLE),以确保保证多样性样本复杂性。据我们所知,这是从胜过pomdps中的相互作用中学习的第一个可证明的样本效果结果,其中潜在状态的数量可以大于观测值的数量。
作者:H Tavafoghi · 被引用 6 次 — Teneketzis。一种用于大规模网络动态防御的 pomdp 方法。IEEE 信息取证与安全交易,13(10):...
存在几个与 AI-Toolbox 功能部分重叠的库。MADP(Oliehoek 等人,2017)是最著名的工具箱之一。它用 C++ 编写,面向多智能体部分可观察模型,并提供多种算法。MADP 是面向对象的,因此类的层次结构很大,而 AI-Toolbox 的设计更紧凑。此外,MADP 没有 Python 绑定。BURLAP 是一个用于强化学习和规划的广泛的 JAVA 库。它包含可视化环境的代码,可与 ROS 框架一起使用(Quigley 等人,2009)。它主要关注完全可观察的环境,而 AI-Toolbox 包含多种最先进的 POMDP 算法。pomdp-solve 是 Anthony Cassandra 编写的 C 库,其中包含相对较旧的 POMDP 算法(最新的算法发表于 2004 年)。它还需要商业许可的 CPLEX 线性规划求解器。MDPToolbox(Chades 等人,2014 年)是用于单代理 MDP 算法的 MATLAB 工具箱。相比之下,AI-Toolbox 还支持 bandits、POMDP 和 MMDP 算法。还有其他工具箱,例如 PyMDPToolbox、JuliaPOMDP(Egorov 等人,2017 年)、ZMDP 和 APPL,但它们的范围比 AI-Toolbox 小得多。
存在几个与 AI-Toolbox 功能部分重叠的库。MADP(Oliehoek 等人,2017)是最著名的工具箱之一。它用 C++ 编写,面向多智能体部分可观察模型,并提供多种算法。MADP 是面向对象的,因此类的层次结构很大,而 AI-Toolbox 的设计更紧凑。此外,MADP 没有 Python 绑定。BURLAP 是一个用于强化学习和规划的广泛的 JAVA 库。它包含可视化环境的代码,可与 ROS 框架一起使用(Quigley 等人,2009)。它主要关注完全可观察的环境,而 AI-Toolbox 包含多种最先进的 POMDP 算法。pomdp-solve 是 Anthony Cassandra 编写的 C 库,其中包含相对较旧的 POMDP 算法(最新的算法发表于 2004 年)。它还需要商业许可的 CPLEX 线性规划求解器。MDPToolbox(Chades 等人,2014 年)是用于单代理 MDP 算法的 MATLAB 工具箱。相比之下,AI-Toolbox 还支持 bandits、POMDP 和 MMDP 算法。还有其他工具箱,例如 PyMDPToolbox、JuliaPOMDP(Egorov 等人,2017 年)、ZMDP 和 APPL,但它们的范围比 AI-Toolbox 小得多。
2.1矢量修剪。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。6 2.1.1矢量优势。。。。。。。。。。。。。。。。。。。。。。。。。。7 2.1.2修剪算法。。。。。。。。。。。。。。。。。。。。。。。。。15 2.2复杂性。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。18 2.2.1线性编程的复杂性。。。。。。。。。。。。。。。。18 2.2.2简单矢量修剪算法的复杂性。。。。。。。。。19 2.2.3与凸赫尔问题的关系。。。。。。。。。。。。。。20 2.2.4平均案例复杂性。。。。。。。。。。。。。。。。。。。。。。21 2.3 POMDP的动态编程算法中的向量修剪。。。22 2.3.1 AI计划的POMDP的精确解决方案。。。。。。。。。。。。22 2.3.2增量修剪。。。。。。。。。。。。。。。。。。。。。。。。。24 2.4有界错误近似。。。。。。。。。。。。。。。。。。。。。。。25 2.4.1近似误差。。。。。。。。。。。。。。。。。。。。。。。。26 26 2.4.2近似矢量修剪。。。。。。。。。。。。。。。。27 2.4.3近似动态编程更新。。。。。。。。。。。。28
部分可观察到的马尔可夫决策过程(POMDP)是在不确定性下进行计划的有力框架。他们允许对状态不确定性建模为一种信念概率分布。基于蒙特卡洛抽样的近似求解器,在放宽计算需求并执行在线计划方面取得了巨大的成功。然而,将许多动作和较长计划视野的比例扩展到复杂的现实域仍然是一个重大挑战,实现良好性能的关键点是指导采取行动选择程序,并使用针对特定应用程序域量身定制的域依赖性政策启发式方法。我们建议从任何求解器生成的执行trace traces中学习高质量的启发式方法。我们将信仰行动对转换为逻辑语义,并进行了数据和时间效率的归纳逻辑编程(ILP),以生成可解释的基于信念的政策规范,然后将其用作在线启发式方法。我们在两个臭名昭著的POMDP问题上彻底评估了我们的方法,涉及大型动作空间和较长的计划范围,即摇滚样本和Pocman。考虑了包括POMCP,Supstot和Adaops在内的不同最先进的在线POMDP求解器,我们表明,在答案集编程(ASP)中表达的启发式方法(ASP)屈服表现出优于神经网络,并且类似于最佳手工制作的任务 - 在较低计算时间内的特定特定的启发式方法。此外,它们已经概括为在训练阶段没有经历的更具挑战性的场景(例如,在岩石样品中增加岩石和网格大小,增加了地图的大小以及Pocman中鬼魂的侵略性)。