摘要 - 越来越多地使用深入强化学习(DRL)框架来解决机器人技术中的高维连续控制任务。然而,由于缺乏样本效率,在机器人域中将DRL应用于在线学习实际上仍然是不可行的。一个原因是,DRL代理不利用以前任务的解决方案。基于后继功能(SFS)的多任务DRL代理的最新工作已被证明在提高样本效率方面非常有前途。在这项工作中,我们提出了一种新的方法,该方法统一了两个先前的多任务RL框架,SF-GPI和价值组成,并将它们适应连续的控制域。我们利用后继功能的组成属性来构成一组原始人的策略分布,而无需培训任何新的政策。最后,为了证明多任务机制,我们基于Isaacgym提出了概念验证的基准环境,尖端和指针,这有助于大规模平行化以加速实验。我们的实验结果表明,我们的多任务代理具有与软演员 - 批评者(SAC)相同的单任务性能,并且代理可以成功地转移到新的看不见的任务中。我们在https://github.com/robot-poception-group/ concurrent_composition提供的代码作为开放源代码。
每个教学模块(不包括记忆)是评估的主题,该主题采用了一种或多种方法的形式:连续控制左右的“中介”评估,并因此称赞“模块的末端”评估。不可能通过技能障碍进行验证。模块的最终注释是连续控制音符或中间评估的加权平均值以及模块评估末尾的注释。
光子量子信息处理是量子技术的主要平台之一 1 – 5,它主要依靠光量子干涉来产生不可或缺的有效光子 - 光子相互作用。然而,由于光子的玻色子性质 7 和传统酉光学元件的受限相位响应 8、9,这种有效的相互作用从根本上局限于聚束 6。在这里,我们提出并通过实验证明了非酉超表面实现的光量子干涉的新自由度。由于独特的各向异性相位响应产生了两个极端的本征操作,我们展示了对两个单光子有效相互作用的动态和连续控制,使得它们表现出玻色子聚束、费米子反聚束或任意中间行为,超出了它们固有的玻色子性质。这种量子操作为基础的量子光物质相互作用和用于量子通信、量子模拟和量子计算的创新光子量子装置打开了大门。超材料是一种具有亚波长元素的结构化材料,可以实现自然界中无法找到的波响应。通过定制超材料,人们已经展示了诸如负折射率、亚衍射成像和隐形斗篷等前所未有的特性 10 – 13 。超表面(二维超材料)使我们能够利用平面光学任意定制经典光的波前和传播 14 – 18 。同时,光子是极好的量子信息载体,因为它们具有长相干时间、室温稳定性、易于操纵和光速信号传输。使用单光子源、分束器、移相器和单光子探测器的量子光子学一直是量子计算、量子模拟和量子通信的主要平台之一 1 – 5 。因此,将超材料无与伦比的光控制与量子光学相结合,可以带来量子信息应用的全新可能性 19 – 22 。光子量子信息处理应用(如线性光学量子计算 1 、玻色子采样 23、24、量子行走 25 和量子通信 26)的核心操作单元是量子双光子干涉 (QTPI)。分束器是此量子操作的关键元素。当两个无法区分的单光子同时到达 50:50 分束器的两个输入端口时,QTPI 表现为洪-欧-曼德尔 (HOM) 效应 6 。在原始的 HOM 实验中,两个光子总是聚集在一起,并以相同的输出离开分束器
将序列建模技术应用于决策问题,例如连续控制和黑框优化。对于连续控制,我们确定了决策变压器和拟议法案(AAAI'24接受)的潜在故障模式,以利用优势条件来实现强大的控制。进行黑盒优化,我们提出了通过安装行为算法的遗憾的学习历史来提炼和加强现有的黑框优化算法,从而使序列模型能够充当通用优化器(当前是提交)。bytedance,北京,中国07/2021 - 11/2021研究实习生
最近的强化学习方法表明,爆炸性政策的强大能力可解决连续控制基准。潜在的粗糙动作空间离散通常会产生有利的探索特征,而在与最佳控制理论一致的情况下,最终绩效并不明显地遭受损失。在机器人技术应用中,平滑控制信号通常是降低系统磨损并提高能源效率的首选,而通过行动成本正规化可能会损害探索。我们的工作旨在通过将离散的动作空间从粗糙控制到精细的控制分辨率来弥合这一绩效差距。我们利用脱钩Q学习的最新结果来扩展我们对高维作用空间的方法,直至DIM(A)= 38。我们的工作表明,自适应控制与价值分解相结合产生了简单的仅批评算法,这使得能够在连续的控制任务上具有出乎意料的强劲性能。关键字:连续控制; Q学习;价值分解;增长分辨率
该泵配有三相风扇冷却异步电机。电机接线盒内装有变频器和 PI 控制器。这样可以连续控制电机速度,从而根据给定要求调整性能。电机接线盒上的操作面板可以设置所需的设定值,以及将泵设置为“最小”或“最大”操作或“停止”。操作面板上有“操作”和“故障”指示灯。可以通过 Grundfos GO Remote(附件)与泵通信。遥控器可以进行进一步设置,以及读取许多参数,例如“实际值”、“速度”、“功率输入”和“总功耗”。
近年来,在深入的强化学习中提出了各种强大的政策梯度算法。虽然所有这些算法都以策略梯度定理为基础,但特定的设计选择在各算法中都有很大差异。我们提供了对政策政策梯度算法的整体概述,以促进对其理论基础及其实际实施的理解。在此概述中,我们包括策略梯度定理的连续版本,收敛结果以及对实用算法的全面讨论的详细证明。我们比较了连续控制环境上最突出的算法,并提供了有关正规化益处的见解。所有代码均可在https://github.com/ matt00n/propictgradientsjax上找到。
“不来梅的空客低速风洞 (LSWT) 可在内部设施中进行风洞测试,并为内部和外部设施提供带有仪器的风洞模型。其使命还包括设计和监控风洞新发动机模拟器的制造和校准。在不同风洞中进行测试活动后,需要对用于风洞测试的探头进行连续控制。多孔压力探头(例如五孔和七孔探头)是经济高效的设备,可在不同的风洞测试中提供准确的流量测量。所有使用的探头都经过校准,一旦它们用于风洞测试活动,它们将由 DENSO VM-60B1G-V 控制,以确定所需的新校准,或继续进行更多测试活动(保持结构特性)。通过将探头放置在已知速度大小和方向的流场中来执行此控制。运动由 DENSO VM-60B1G-V 实现,并将新特性值与校准值进行比较。
我们提出了Crystalbox,这是一个新颖的,模型的,后的,后的解释性框架,用于深钢筋学习(DRL)控制器,包括包括计算机系统在内的大型输入驱动的环境。我们将奖励函数在输入驱动的环境中的自然可分解性与分解重新转弯的解释力相结合。我们提出了一种有效的算法,以在离散和连续控制环境中生成基于未来的解释。使用自适应比特率流和拥堵控制等应用程序,我们演示了Crystal-box产生高保真解释的能力。我们进一步说明了在三种实际用例中的较高效用:对比解释,网络可观察性和指导性奖励设计,而不是先前的解释性技术来识别出色的特征。