摘要 - 我们考虑称为消费马尔可夫决策过程的形式主义的定性策略综合。这种形式主义可以模拟在随机环境中资源约束下运行的代理的动力学。所提出的算法就模型的表示而在多项式上起作用,并合成策略,以确保在没有资源耗尽的概率1的情况下(一次或无限多次)达到给定的目标状态(一次或无限多次)。特别是,当资源数量变得太低以至于无法安全地继续执行任务时,战略将代理商的过程更改为指定的一套重新加载态之一,在该州中,代理商将资源补充资源已充分满足;凭借足够数量的资源,代理商试图再次实现任务。我们还提出了两种启发式方法,试图减少代理商需要实现给定任务的预期时间,这是实践计划中重要的参数。实施了所提出的算法,数值示例表明(i)基于消费马尔可夫决策过程的计划方法的有效性(在计算时间)和(ii)两种启发式方法对现实示例中计划的积极影响。
机器人学习任务是非常密集的和特定于硬件的。因此,使用可用于训练机器人操纵剂的不同离线示范数据集应对这些挑战的途径非常吸引人。火车传输测试结束(TOTO)的基准提供了一个策划的开源数据集,用于离线培训,主要由专家数据组成,还提供了公共离线RL和行为克隆代理的基准分数。在本文中,我们引入了Diffclone,这是一种通过基于扩散的策略学习增强行为克隆剂的离线算法,并在测试时测量了我们方法对真实在线物理机器人的疗效。这也是我们正式提交在Neurips 2023举行的火车及其对方(TOTO)基准挑战的提交。我们尝试了预先训练的视觉表示和试剂策略。在我们的实验中,我们发现MOCO FINETENED RESNET50与其他固定表示形式相比表现最好。目标状态条件和对过渡的映射导致成功率和卑鄙的回报提高。至于代理策略,我们开发了Diffclone,这是一种使用条件扩散改善的行为克隆剂。
我们提供了一个系统的框架,用于构建具有目标固定(混合)状态的非平衡动力学的通用模型。我们的框架确定了(几乎)哈密顿式和耗散动力的所有组合,这些动力学放松到稳定的感兴趣状态,从而概括了戴维斯发电机在有限温度下以销量的耗散放松为靶向任意固定状态的非列表动力学。我们专注于稳定器哈密顿人的吉布斯状态,通过限制耗散和统一过程的速度来确定当地的林文化学兼容。在Lindbladian中给定的术语与目标状态不兼容,我们的形式主义确定了操作(包括综合征测量和本地反馈),必须适用以纠正这些错误。我们的方法还揭示了量子动力学的新模型:例如,我们提供了“测量引起的相变”,其中可测量的两点函数表现出关键的(电力法)缩放,并在横向场的临界比例和测量和反馈的速率下以距离为单位。时间逆转对称性(自然而然地定义在我们的形式主义中)可以以有效的经典和本质上的量子方式被打破。我们的框架提供了一个系统的起点,用于探索开放量子系统中动态通用类别的景观,并确定量子误差校正的新协议。
引言:纠缠是量子系统独有的特征,研究其在复杂系统中的动态特性既有基础性动机,也有实际意义。也就是说,人们对理解在哈密顿量和测量诱导动力学相互竞争的系统中纠缠产生的不同阶段有着浓厚的兴趣(例如,参见参考文献 [ 1 – 16 ])。这里的共同特点是,纠缠的产生取决于对测量结果的了解,即它只存在于单个测量轨迹的层面上[见图 1(a) ]。相反,平均状态(所有测量结果的平均值)通常是高度混合且无纠缠的。因此,直接检测新的纠缠动力学和转变似乎需要对测量记录进行后期选择,这对可扩展的实验实施提出了巨大的挑战 [ 17 ]。为解决这一后选择问题,人们提出了各种想法 [18-29],并进行了一些相应的实验 [30,31]。其中许多方法侧重于测量替代量(即不直接测量系统纠缠),或研究使用反馈辅助动力学来稳定预选目标状态的效率转变 [该转变可作为实际测量诱导纠缠相变 (MIPT) 的替代 [23-26]]。虽然这些方法不需要后选择,但人们可能会担心反馈辅助动力学中的转变可能截然不同,并且与原始纠缠相变仅存在松散的关系 [25-27,32-35]。
对神经反馈培训研究和相关临床应用的一个重大挑战是参与者在训练过程中学习诱导特定大脑模式的困难。在这里,我们在基于fMRI的解码神经反馈(DECNEF)的背景下解决了这个问题。可以说,用于构建解码器的数据与用于神经反馈训练的数据之间的差异,例如数据分布和实验环境的差异,可能是上述参与者困难的原因。我们使用标准机器学习算法开发了一个共同适应程序。首先,我们使用以前的Decnef数据集通过模拟测试了该过程。该过程涉及一种自适应解码器算法,该算法根据其在神经反馈试验中的预测中实时更新。结果表明,在神经反馈训练期间,解码器性能有了显着改善,从而增强了学习曲线。然后,我们在Decnef培训程序中收集了实时fMRI数据,以提供概念证据证据,表明共同适应增强了参与者在训练过程中诱导目标状态的能力。因此,通过共同适应的个性化解码器可以提高Decnef培训方案的精度和可靠性,以针对特定的大脑表示,并在转化研究中产生后果。这些工具可公开提供给科学界。
我们提出了一个控制理论框架来研究嵌入在模拟环境中的生物驱动人工神经系统(Sussillo,2014)的稳定性和可控性。从高层的角度来看,这个框架模拟了脑-机-环境的相互作用。我们首先考虑建模一个神经系统在虚拟环境中执行行为任务的问题。用控制理论的语言来说,神经系统与环境过程形成一个闭环反馈控制器。在第二步中,我们模拟神经系统的退化(例如在传感器或执行器处)并添加一个二级控制器(假肢),目的是恢复行为功能。在此过程中,我们考虑了大脑模型中的不确定性、非线性、测量噪声以及可观察状态和可控神经元的有限可用性。神经系统,从单个神经元到大规模群体,都以复杂的动态为特征,建模和控制可能具有挑战性(Ritt and Ching,2015)。经典控制理论(Khalil,2002;Brunton 和 Kutz,2017;Astrom 和 Murray,2020)为设计控制律提供了强大的工具,并在神经技术领域得到广泛应用,例如机械臂或计算机光标的闭环脑机接口 (BMI) 控制(Shanechi 等人,2016)、癫痫发作缓解的模型预测控制(Chatterjee 等人,2020)以及大脑在认知状态之间转换的机制解释(Gu 等人,2015)。闭环控制的一个特别成功的应用是通过深部脑刺激治疗帕金森病。在那里,可以使用基于阈值、比例积分或自调节控制器将病理性 β 波段振荡活动抑制在所需的目标水平(Fleming 等人,2020a、b)。 Schiffi (2011) 建立了一种将控制理论与神经科学和生物医学联系起来的典型方法,其中时空皮质动态模型与卡尔曼滤波器相结合,以估计未观察的状态并跟踪未知或漂移的模型参数。神经形态社区中的团队最近通过实现生物学上合理的操作和学习状态估计和控制规则(Friedrich 等人,2021;Linares-Barranco 等人,2022)以及神经形态 BMI 电路(Donati 和 Indiveri,2023)为这项工作做出了贡献,这有望在低功耗运行时实现更好的生物相容性。在上述许多方法中反复出现的一些挑战是线性(可实现)或低维系统的假设、对底层动态的知识或所需目标状态的可用性(如帕金森病的 DBS)。本文针对这些局限性做出了两项主要贡献。首先,我们建议一致使用动力系统来模拟大脑、环境、和假肢。除了统一方法论之外,这种选择还可以灵活地对不同程度的真实模型进行实验。在这里,我们展示了循环神经网络 (RNN) 作为神经系统和假肢的简单、高度可扩展的构建块的使用。其次,我们逐步消除了线性、系统知识、完全可观测性和监督目标状态的假设,通过使用强化学习 (RL)(Sutton 和 Barto,2020 年)进行系统识别和合成假肢控制器。
2.3 水壶问题:有两个水壶,分别叫做四和三;四最多能装四加仑水,三最多能装三加仑水。我们如何才能在四号水壶中装两加仑水。状态空间是一组有序对,给出任意时刻一对水壶中的加仑数,即 (四,三),其中四 = 0、1、2、3、4,三 = 0、1、2、3。起始状态为 (0,0),目标状态为 (2,n),其中 n 无关,但限制为三,可容纳 0 至 3 加仑水。解决该问题的主要生成规则如下所示: 初始条件 目标 注释 1 (four,three) 如果 four < 4 (4,three) 从水龙头填充 four 2 (four,three) 如果 three< 3 (four,3) 从水龙头填充 three 3 (four,three) 如果 four > 0 (0,three) 将 four 清空放入排水管 4 (four,three) 如果 three > 0 (four,0) 将 three 清空放入排水管 5 (four,three) 如果 four+three<4 (four+three,0) 将 three 清空放入 four 6 (four,three) 如果 four+three<3 (0,four+three) 将 four 清空放入 three 7 (0,three) 如果 three>0 (three,0) 将 three 清空放入 four 8 (four,0) 如果 four>0 (0,four) 将 four 清空放入 three 9 (0,2) (2,0) 将 three 清空放入 four 10 (2,0) (0,2) 将 four 清空放入 three 11 (four,three) 如果 four<4 (4,three-diff) 将 diff, 4-four, 从 three 倒入 four 12 (three,four) 如果 three<3 (four-diff,3) 将 diff, 3-three, 从 four 倒入 three 并且给出以下解决方案 应用 Jug four、jug three 规则 0 0 0 3 2 3 0 7 3 3 2 4 2 11 0 2 3 2 0 10
国家 目标状态 目标年份 中国 在政策文件中 2060 印度 在政策文件中 2070 印度尼西亚 提议/讨论中 2060 土耳其 在政策文件中 2053 越南 在政策文件中 2050 巴基斯坦 在政策文件中 2030 泰国 在政策文件中 2065 马来西亚 在政策文件中 2050 哈萨克斯坦 在政策文件中 2060 伊拉克 在政策文件中 2030 菲律宾 在政策文件中 2030 孟加拉国 提议/讨论中 2050 乌兹别克斯坦 在政策文件中 2030 缅甸 提议/讨论中 2050 阿塞拜疆 在政策文件中 2030 蒙古 在政策文件中 2030 尼泊尔 在政策文件中 2045 柬埔寨 在政策文件中 2050 斯里兰卡 宣言/承诺 2050 约旦 在政策文件中 2030 阿富汗 提议/讨论中 2050 老挝人民民主共和国 在政策文件中 2050 塔吉克斯坦 在政策文件中 2030格鲁吉亚 政策文件中 2050 吉尔吉斯斯坦 提议/讨论中 2050 东帝汶 提议/讨论中 2050 马尔代夫 法律中 2030 斐济 法律中 2050 瓦努阿图 政策文件中 2050 萨摩亚 提议/讨论中 2050 汤加 提议/讨论中 2050
附件1:NMHAP中所含相关国际和国家战略材料的具体领域和目标清单。附件 2:NMHAP 的分析部分 附件 3:对精神病患者区域护理网络当前管理状况的一般组织经济和法律参数的分析、可能目标状态的变体描述以及实现这些目标的预期组织和法律程序的关键点 附件 4:NMHAP 的成本模型 - 残疾养老金 附件 5:NMHAP 的成本模型 - 护理津贴 附件 6:精神病学中的限制措施 - 总结报告 6a:关于使用限制措施的法律观点 6b:定性研究报告 6c:限制措施定性研究的事实探索 6d:限制措施登记册数据总结 附件 7:精神卫生领域的医疗费用 附件 9:捷克共和国精神卫生保健系统现行立法分析 附件 10:捷克共和国精神病护理资金现状分析附件 11:保护性治疗网络的现状和进一步发展的建议附件 12:精神科医生教育现状报告和系统措施建议附件 3 至 12 是专家准备的支持材料,旨在更好地了解问题,以及筹资模式建议。这些不是具有约束力的文件;它们提交给捷克共和国政府仅供参考,并不旨在作为修改法律或实施条例的依据。在部际层面准备的分析报告,经捷克共和国政府或负责实施该措施的实体批准,将用于此目的。附件 8 已在部际评论程序中删除。
扩散模型已成为一种有前途的数据驱动规划方法,并已展示出令人印象深刻的机器人控制、强化学习和视频规划性能。给定一个有效的规划器,需要考虑的一个重要问题是重新规划——何时应由于动作执行错误和外部环境变化而重新生成给定的计划。直接执行计划而不进行重新规划是有问题的,因为来自单个动作的错误会迅速累积,并且环境是部分可观察和随机的。同时,在每个时间步重新规划会产生大量的计算成本,并且可能会阻止任务成功执行,因为不同的生成计划会阻止任何特定目标的一致进展。在本文中,我们探讨了如何使用扩散模型有效地进行重新规划。我们提出了一种原则性方法来确定何时重新规划,该方法基于扩散模型对现有生成计划的估计可能性。我们进一步提出了一种重新规划现有轨迹的方法,以确保新计划遵循与原始轨迹相同的目标状态,这可以有效地引导先前生成的计划。我们说明了我们提出的附加功能组合如何显著提高扩散规划器的性能,使其在 Maze2D 上的性能比过去的扩散规划方法提高了 38%,并进一步实现了随机和长视界机器人控制任务的处理。视频可在匿名网站上找到:https://vis-www.cs.umass. edu/replandiffuser/ 。