摘要。配备了训练有素的环境动态,基于模型的型号增强学习(RL)算法可以成功地从固定尺寸的数据集中成功学习良好的策略,甚至有些质量较差的数据集。不幸的是,不能保证从训练有素的动态模型中生成的样品是可靠的(例如,某些合成样本可能位于静态数据集的支持区域的外面)。为了解决这一点,我们提出了与u ncleantity(tatu)的束缚t runcation,如果沿轨迹的累积不确定性太大,则可以自适应地截断合成轨迹。我们从理论上展示了塔图的绩效界限,以证明其受益合理。为了示出Tatu的优势,我们首先将其与两种基于经典模型的型号RL算法结合在一起,MOPO和组合。此外,我们将tatu与几个未经省的模型集成在一起,不含频率rl算法,例如BCQ。D4RL基准测试的实验结果表明,Tatu显着提高了其能力,通常会大幅度通过很大的边缘。代码可在此处找到。
摘要:基于模型的规划对于提高强化学习 (RL) 中的样本效率和泛化能力大有裨益。我们表明,基于能量的模型 (EBM) 是一种很有前途的模型,可用于基于模型的规划。EBM 自然支持在给定起始和目标状态分布的情况下推断中间状态。我们提供了一种在线算法来训练 EBM,同时与环境交互,并表明 EBM 允许比相应的前馈网络更好的在线学习。我们进一步表明,EBM 支持最大熵状态推断,并且能够生成不同的状态空间计划。我们表明,纯粹在状态空间中进行推断(没有规划动作)可以更好地泛化到环境中以前看不见的障碍物,并防止规划者通过应用非典型动作序列来利用动态模型。最后,我们表明,在线 EBM 训练自然会导致有意计划的状态探索,其表现明显优于随机探索。
这项研究的目的是分析电极之间的相互作用的贡献,即以相关性或jaccard距离测量,对运动成像范式中两种作用的分类,即左手运动和右手运动。分析是在两个分类模型中进行的,即静态(线性判别分析,LDA)模型和动态(隐藏的条件随机范围,HCRF)模型。还分析了在静态和动态模型中使用滑动窗口技术(SWT)的影响。The study proved that their combination with temporal features provides significant information to improve the classification in a two-class motor imagery task for LDA (average accuracy: 0.7192 no additional features, 0.7617 by adding correlation, 0.7606 by adding Jaccard distance; p < 0.001) and HCRF (average accuracy: 0.7370 no additional features, 0.7764 by adding相关性,通过添加Jaccard距离为0.7793;另外,我们表明,在相互作用度量或分类器本身的性质上,电极之间的相互作用显着提高了每个分类器的性能。
我们研究了在有限的子系统上支撑的量子状态的普遍,均匀分布的出现,该量子状态通过投射介绍系统的其余部分而引起的。被称为深度热化,这种现象代表了比常规热化更强的量子多体系统中平衡的形式,这仅限于可观察到的一体组成的阀门。虽然在一个维度中存在量子电路模型,在该模型中可以证明这种现象可以准确地出现,但这些现象是特殊的,因为深层的热化是在与常规热化的完全相同的时间发生。在这里,我们提出了一个完全可溶解的混乱动态模型,其中可以证明这两个过程在不同的时间尺度上发生。该模型由一个有限的子系统组成,该子系统通过较小的收缩结合到有限的随机基质浴场,并突出显示了局部性和不完善的热化在约束这种通用波函数分布的形成中的作用。我们测试了针对精确数值模拟的分析预测,从而确定了出色的一致性。
单一国家可计算一般均衡 (CGE) 模型通常假设世界市场中的价格接受行为,这可能会忽略贸易暴露行业中潜在的重要贸易条件效应。在本文中,我们评估了大型开放经济体建模的数值证据,并开发了一种参数化多区域全球经济模型中国际贸易联系的简化形式近似值的方法。模拟的出口需求和进口供应弹性表明,假设价格接受行为(例如小型开放经济体假设)可能会忽略出口市场和某些商品进口市场的重要影响。我们表明,与具有明确贸易联系的类似多区域静态模型相比,简化形式的贸易条件效应捕捉方法可以表现良好。我们还说明了如何使用美国环保署的 SAGE 模型将校准程序扩展到动态模型。我们的建模场景证明了大型开放经济体假设在非贸易政策应用中的相对重要性,这可能非常重要。
本文提出了几种用于复杂在轨高自由度机器人的任务空间控制方法。这些方法包括冗余分辨率,并考虑了在轨机器人系统的非线性动态模型。在需要复杂人形机器人视觉伺服任务的几种在轨服务操作中探索了所提出的任务空间控制方法的适用性。一个统一的开源空间机器人模拟框架,称为 OnOrbitROS,用于评估所提出的控制系统并将其行为与最先进的现有系统进行比较。所采用的框架基于 ROS,包括并再现了最终空间机器人和机械手在轨服务场景中可能遇到的主要环境条件。介绍了开发的不同软件模块的架构及其在复杂空间机器人系统上的应用。使用所提出的 OnOrbitROS 框架实现了高效的实时实现。所提出的控制器用于执行人形机器人的引导。机器人动力学被集成到控制器的定义中,并在结果部分描述了结果和实际属性的分析。
我们开发了一个可处理的具有预付现金约束的一般均衡经济中价格动态模型。动态源自企业之间的局部互动,这些互动受经济基础生产网络的支配。我们分析性地描述了网络结构对货币冲击传播的影响。从长远来看,该模型收敛到一般均衡,货币数量理论成立。在短期内,货币冲击通过需求的名义变化向上游传播,通过供应的实际变化向下游传播。微观层面供需演变的滞后可能导致价格分布的任意动态。我们的模型解释了价格之谜:由于货币紧缩,价格水平暂时上涨。在我们的设定中,这个谜题出现在两个关于下游企业的假设下:它们受到货币紧缩的不成比例的影响,并且它们在工资单中占很小的份额。经验证据支持美国经济的两个假设。我们的模型根据美国经济进行了校准,采用了超过五万家公司的数据集,从而得出了货币紧缩后价格水平上涨的经验观察幅度。
可再生电力可以完全实现欧洲电力供应脱碳,但巨大的土地需求可能会引起土地使用冲突。使用捕捉可再生能源波动的动态模型,我探索了未来不同供应方选项的土地需求与总系统成本之间的关系。成本最低的完全可再生电力需要大约 97,000 平方公里(占总面积的 2%)的土地用于安装太阳能和风能,大约相当于葡萄牙的面积,其中包括大量的陆上风能。用海上风能、公用事业规模的光伏或屋顶光伏取代陆上风能可大幅减少土地需求,而成本损失很小。将风力发电转移到海上最具成本效益,可将土地需求减少 50%,而成本损失仅为 5%。风力发电也可以用光伏发电取代,成本损失为 10%,但效果相同。我的研究表明,完全可再生电力供应可以设计成具有非常不同的外观和对景观和人口的影响,但成本相似。
精确操作是指机器人在综合环境中表现出高度准确,细致和灵活的任务的能力[17],[18]。该领域的研究重点是高精度控制和对动态条件的适应性。使用运动学模型和动态模型以实现结构化设置中的精确定位和组装[19],依靠刚性机械设计和模型驱动的控制依赖于刚性机械设计和模型驱动的控制。最近,深度学习和强化学习改善了动态环境中的机器人适应性[20],[21],而视觉和触觉感应的进步使千分尺级的精度在握把,操纵和组装方面[22]。此外,多机器人协作还允许更复杂和协调的精确任务。尽管取得了重大进展,但在多尺度操作整合,动态干扰补偿和低延迟相互作用中仍然存在挑战[23]。未来的研究应进一步改善交叉模态信息的实时对齐,并增强非结构化环境中机器人视觉的鲁棒性,以优化精确的操纵能力。
在基于现代模型的控制框架中,例如模型预测控制或基于模型的信息学习学习,机器学习已成为一种无处不在的技术类别,以提高动态模型的准确性。通过利用诸如神经网络之类的表现力体系结构,这些框架旨在通过构建系统动力学的准确数据驱动表示,旨在提高系统的模型精度和控制性能。尽管对其非学习顾问进行了显着的绩效提高,但对于这些基于模型的模型的基于模型的控制器在不确定性的存在下,这些模型的控制器通常几乎没有保证。尤其是在模拟误差,噪声和外源性干扰的影响下,确定这些学习模型的准确性是一项挑战。在某些情况下,甚至可能违反约束,使控制器不安全。在这项工作中,我们提出了一个新颖的框架,该框架可以应用于大量的基于模型的控制器,并通过以在线和模块化方式鲁棒化基于模型的控制器,从而减轻上述问题,并在模型的准确性和约束满意度上提供可证明的保证。该框架首先部署保形预测,以生成有限的,可证明的有效的不确定性区域,以无分配方式为动态模型。通过动态约束程序,这些不确定性区域被纳入约束中。关键字:基于学习的控制,基于模型的控制,不确定性量化1。(2023a))。Jiahao等。Jiahao等。与预测参考生成器的配方一起,生成了一组可鲁棒的参考传播,并将其纳入基于模型的控制器中。使用两个实际的案例研究,我们证明我们提出的方法不仅产生了良好的不良区域,这些区域建立了模型的准确性,而且还使闭环系统以强大但不保守的方式满足约束。简介由于非线性优化框架的最新进展以及计算资源的可用性增加,在广泛的域上应用基于模型的控制器的应用趋势是趋势。,用于建筑物中的温度控制(Yao和Shekhar(2021)),用于自动驾驶汽车(Wu等人(2022))和四型控制(Chee等人机器学习方法的扩散同时导致了学习增强的,基于模型的控制框架的发展,这些框架利用学习工具通过改进动态模型来提高控制性能,例如(2023)。尽管这些发展激增,但这些基于学习的控制框架在不确定性存在下如何执行的问题仍然是一个积极的研究主题(Mesbah等人。(2022); Brunke等。(2022))。在这项工作中,我们通过提出一个新颖的框架来解决这个问题,该框架系统地允许基于模型的控制器在模型不匹配,噪声和外部干扰的集体影响下稳健地满足约束。