摘要 — 脑机接口 (BCI) 为大脑和计算机系统之间提供了独特的通信渠道。经过大量研究和在众多应用领域的实施,为确保可靠和快速的数据处理而面临的众多挑战导致了混合 BCI (hBCI) 范式的产生,该范式由两个 BCI 系统的组合组成。然而,并非所有挑战都得到了妥善解决(例如重新校准、空闲状态建模、自适应阈值等),以允许在实验室外实施 hBCI。在本文中,我们回顾了基于脑电图的 hBCI 研究并指出了潜在的局限性。我们提出了一个基于部分可观马尔可夫决策过程 (POMDP) 的顺序决策框架来设计和控制 hBCI 系统。POMDP 框架是处理上述限制的绝佳候选框架。为了说明我们的观点,我们提供了一个使用基于 POMDP 的 hBCI 控制系统的架构示例,并讨论了未来的发展方向。我们相信,该框架将鼓励研究工作提供相关方法来整合来自 BCI 系统的信息,并将 BCI 推向实验室之外。索引术语 —EEG、混合 BCI、POMDP
摘要 - 自主驾驶中有效的决策依赖于其他交通代理的未来行为的准确推断。为了实现这一目标,我们提出了一个基于在线信念的行为预测模型,也提出了一个有效可观察到的马尔可夫决策过程(POMDP)的有效计划者。我们开发了一个基于变压器的预测模型,通过复发性神经记忆模型增强,以动态更新潜在信念状态并推断其他代理的意图。该模型还可以整合自我车辆的意图,以反映代理之间的闭环交互,并从离线数据和在线交互中学习。为了计划,我们采用了一个具有宏观动作的蒙特卡洛树搜索(MCT)计划者,从而通过搜索时间扩展的动作步骤来降低计算复杂性。在MCTS计划者中,我们使用预测的长期多模式轨迹来近似未来的更新,从而消除了迭代信念的更新和提高跑步效率。我们的方法还将深度Q学习(DQN)作为搜索事务,从而大大提高了MCTS计划者的性能。模拟环境的实验结果验证了我们提出的方法的有效性。在线信念更新模型可以显着提高预测的准确性和时间一致性,从而改善决策绩效。在MCT计划中,采用DQN作为搜索,大大提高了其性能,并优于基于模仿学习的先验。此外,我们表明,具有宏观动作的MCT计划在性能和效率方面大大优于香草方法。
部分可观察到的马尔可夫决策过程(POMDP)是在不确定性下进行计划的有力框架。他们允许对状态不确定性建模为一种信念概率分布。基于蒙特卡洛抽样的近似求解器,在放宽计算需求并执行在线计划方面取得了巨大的成功。然而,将许多动作和较长计划视野的比例扩展到复杂的现实域仍然是一个重大挑战,实现良好性能的关键点是指导采取行动选择程序,并使用针对特定应用程序域量身定制的域依赖性政策启发式方法。我们建议从任何求解器生成的执行trace traces中学习高质量的启发式方法。我们将信仰行动对转换为逻辑语义,并进行了数据和时间效率的归纳逻辑编程(ILP),以生成可解释的基于信念的政策规范,然后将其用作在线启发式方法。我们在两个臭名昭著的POMDP问题上彻底评估了我们的方法,涉及大型动作空间和较长的计划范围,即摇滚样本和Pocman。考虑了包括POMCP,Supstot和Adaops在内的不同最先进的在线POMDP求解器,我们表明,在答案集编程(ASP)中表达的启发式方法(ASP)屈服表现出优于神经网络,并且类似于最佳手工制作的任务 - 在较低计算时间内的特定特定的启发式方法。此外,它们已经概括为在训练阶段没有经历的更具挑战性的场景(例如,在岩石样品中增加岩石和网格大小,增加了地图的大小以及Pocman中鬼魂的侵略性)。
抽象的深入强化学习表明,在视频游戏,机器人控制,官方驾驶和药物发现等不同领域的跨不同领域取得了巨大的成就。部分可观察的域中的常见方法在很大程度上倾向于从高维观测(例如图像)中端到端学习,而没有明确推理真实状态。我们提出了一个替代方向,引入了部分规定的加固学习(PSRL)框架。PSRL的核心是受监督和无监督学习的融合。该方法利用州估计器从高维观测中提取监督的语义状态信息,这些观察通常在培训时完全可用。这产生了更容易解释的政策,这些政策由控制构成状态预测。并行,捕获了一个无透视的潜在表示。这两个 - 语义状态和潜在状态 - 然后融合并用作策略网络的输入。这种并置为从业者提供了灵活而动态的范围:从强调监督的状态信息到整合富裕的潜在见解。广泛的实验结果表明,通过合并这些双重表示,PSRL提供了有效的平衡,增强了模型,可以在保存的同时使用,并且通常明显胜过表现,这是通过奖励和收敛速度以传统方法设定的性能基准。
摘要。在本研究中,实验测试了一个旨在推动人类操作员和无人机 (UAV) 团队之间互动的正式框架。目标是通过在线监控操作员的心理工作量 (MW) 和表现来控制代理之间的互动,从而提高人类的表现。所提出的解决方案使用应用于心脏特征的分类器进行 MW 估计。分类器输出作为人类 MW 状态观察引入部分可观察马尔可夫决策过程 (POMDP),该过程对人机交互动态进行建模,旨在控制交互以优化人类代理的表现。基于对操作员 MW 和表现的当前信念状态以及任务阶段,POMDP 策略解决方案控制应该向操作员建议或不建议哪些任务,假设无人机能够支持人类代理。使用一项实验对该框架进行了评估,其中 13 名参与者以不同的工作量水平执行了 2 次搜索和救援任务(有/无适应性)。根据文献,当使用自适应方法时,参与者感受到的 MW、身体和时间需求、挫折感和努力明显减少,他们的飞行得分也显著提高。这些发现证明了这种基于 POMDP 的自适应交互控制如何提高性能,同时减少操作员的工作量。