摘要。受到跨各个应用领域的反相反优化(IO)的最新成功的启发,我们提出了一种新型的离线增强学习(ORL)算法,用于连续状态和动作空间,利用IO文献中的凸损失函数,称为“凸丢失函数”。为了减轻在ORL问题中通常观察到的分布变化,我们进一步采用了强大的,非毒性模型预测控制(MPC)专家,使用来自模型不匹配的内在信息来指导动力学的名义模型。与现有文献不同,我们强大的MPC专家享有确切且可拖延的凸重新印象。在这项研究的第二部分中,我们表明,受提议的凸损失功能培训的IO假设类别具有丰富的表现力,并且在使用Mujoco基准的低DATA基准中的最先进的方法(SOTA)方法进行了竞争性绩效,同时使用了三个较少的资源,需要很少有参数,几乎需要。为了促进结果的可重复性,我们提供了实施提出算法和实验的开源软件包。
摘要 - 仿真是机器人技术中广泛使用的工具,可减少硬件消耗并收集大规模数据。尽管为模拟光学触觉传感器做出了预先的努力,但仍在有效合成图像并在不同的接触载荷下复制标记运动方面仍然存在Challenges。在这项工作中,我们提出了一个名为FOTS的快速光学式模拟器,用于模拟光学触觉传感器。我们利用多层感知器映射和平面阴影生成来模拟光学响应,同时采用标记分布近似来模拟由弹性体变形引起的表面标记的运动。实验结果表明,FOT在图像产生质量和渲染速度方面优于其他方法,用于光学仿真的28.6 fps和326.1 fps的单个CPU上的标记运动模拟326.1 fps,而无需GPU加速。此外,我们将FOTS仿真模型与Mujoco等物理引擎集成在一起,而PEG-In-inole任务则证明了我们方法在实现零拍摄的SIM2REAL学习触觉机器人机器人操纵技能方面的有效性。我们的代码可在https://github.com/rancho-zhao/fots上找到。
抽象强化学习(RL)已成功应用于许多机器人操纵任务和持续控制问题。但是,它仍然仅限于工业应用,并应对三个主要挑战:样本效率,实际数据收集以及模拟器与现实之间的差距。在本文中,我们将重点放在RL在现实世界中用于机器人组件的实际应用。我们运用启蒙学习来改善近端政策优化,这是一种无效的无与伦比的参与者 - 批判性强化学习算法,使用本体感受信息在笛卡尔空间中训练代理商。我们通过预处理引入了启蒙学习,这是有益的,可以降低政策培训的成本并提高政策的效果。通过两步法生成类似人类的组装轨迹,该方法将通过位置进行分割对象,并进行预训练的最接近点。我们还设计一个SIM到运行控制器,以在转移到现实时纠正错误。我们在Mujoco Simulator中设置了环境,并在最近成立的国家标准技术研究所(NIST)Gear Assembly基准中演示了提出的方法。本文引入了一个独特的框架,该框架使机器人能够通过利用仿真和视觉演示来使用有限的现实世界样本来学习汇编任务。比较实验结果表明,我们的方法在训练速度,成功率和效率方面超过了其他基线方法。
自然智力过程经历了连续的流,传感,表演和学习的实时时刻。流学习,经典增强学习(RL)算法(例如Q-学习和TD)的作案手法,通过使用最新样本而无需存储,模仿自然学习。这种方法也是资源约束,通信限制和隐私敏感应用程序的理想选择。但是,在深度RL中,学习者几乎总是使用批处理更新和重播缓冲区,从而使它们在计算上昂贵且与流学习不相容。尽管批处理深度RL的流行率通常归因于其样品效率,但缺乏流式流式RL的更关键原因是其频繁的不稳定性和未能学习,我们将其称为流屏障。本文介绍了Stream-X算法,这是一类Deep RL算法,以克服批次RL的预测和控制以及匹配样品效率的流屏障。通过Mujoco Gym,DM Control和Atari Games的实验,我们通过我们的Stream-X算法展示了现有算法的流屏障和成功的稳定学习:流Q,流AC和Stream TD,在DM控制犬环境中实现最佳的模型无模型性能。一组通用技术是Stream-X算法的基础,可以通过一组超参数获得成功,并允许轻松扩展到其他算法,从而恢复流式的RL。
摘要:深入强化学习(DRL)已被证明对几种复杂的决策应用有效,例如自主驾驶和机器人技术。但是,众所周知,DRL受到其高样本复杂性和缺乏稳定性的限制。先验知识,例如,作为专家演示,通常可以使用,但要挑战以减轻这些问题。在本文中,我们提出了一般增强模仿(GRI),这是一种新颖的方法,结合了探索和专家数据的好处,并且可以直接实施任何非政策RL算法。我们做出了一个简化的假设:可以将专家演示视为完美的数据,其基础政策将获得不断的高奖励。基于此假设,GRI介绍了示范剂的概念。该代理发送专家数据,这些数据是与在线RL勘探代理所带来的经验同时且无法区分的。我们表明,我们的方法可以对城市环境中基于摄像机的自动驾驶进行重大改进。我们在使用不同的非政策RL算法的穆约科克连续控制任务上进一步验证了GRI方法。我们的方法在Carla排行榜上排名第一个,在先前的最新方法中,在Rails上胜过17%。
基于模型的增强学习(MBRL)是一种获得控制策略的样本有效技术,但不可避免的建模误差通常会导致性能恶化。MBRL中的模型通常仅用于重建动态,尤其是状态观察,而模型误差对策略的影响并未由培训目标捕获。这导致MBRL的目标目标之间的不匹配,实现良好的政策和价值学习,以及实践中采用的损失函数的目标,未来的国家预测。天真的直觉表明,价值感知的模型学习将解决这个问题,实际上,已经基于理论分析提出了针对该客观不匹配问题的第二种解决方案。但是,在实践中,它们往往不如通常使用的最大可能性(MLE)方法。在本文中,我们提出了价值梯度加权模型损失(VAGRAM),这是一种新颖的价值模型学习方法,可改善MBRL在具有挑战性的环境中的性能,例如小型模型容量和分散注意力的状态尺寸。我们分析了MLE和值感知的方法,并演示了他们如何在学习价值吸引模型时无法解释样本覆盖范围和功能近似的行为。fom,我们强调了在深度学习环境中稳定优化的其他目标。为了实现这一目标,我们利用经验值函数的梯度作为对RL算法对模型误差的敏感性的量度。我们通过表明我们的损失函数能够在Mujoco基准套件上获得高回报来验证我们的分析,同时比基于最大似然的方法更健壮。
与人类的偏好和/或意图保持一致是当代基础模型的重要要求。为了确保对准,诸如人类反馈(RLHF)等流行方法将任务分为三个阶段:(i)基于大型示范数据的监督微调(SFT)计算的模型,(ii)基于人类反馈数据和(III II)的估计,(ii)将使用(III)估算了(ii II),以进一步的模型(RL)进一步估算了该模型(RL)。演示和人类反馈数据以不同的方式反映了人类用户的偏好。结果,仅从人类反馈数据获得的奖励模型估计可能不如从演示和人类反馈数据获得的奖励模型估计值那么准确。一种优化从演示和人类反馈数据获得的奖励模型估计值的政策模型可能会表现出更好的对齐性能。我们引入了一种可访问的算法,以找到奖励和政策模型并提供有限的时间绩效保证。此外,我们通过广泛的实验(包括LLMS中的比对问题和Mujoco中的机器人控制问题)来证明所提出的解决方案的效率。我们观察到,所提出的解决方案的表现优于现有的对齐算法。
解决复杂的,暂时扩展的任务是控制学习(RL)的长期问题。我们假设解决此类问题的一个关键要素是组成性的概念。具有学习概念和子技能的能力,这些概念和子技能可以构成解决更长的任务的能力,即层次RL,我们可以获取时间扩展的行为。但是,为层次RL获取有效但一般的抽象是极具挑战性的。在本文中,我们建议将语言用作抽象,因为它提供了独特的组合结构,实现了快速学习和组合概括,同时保持了极大的灵活性,使其适合各种问题。我们的方法学习了一个遵循指令的低级政策和高级政策,该政策可以在本质上重复跨任务的抽象,从而允许代理人使用结构化语言进行推理。为了研究组成任务学习,我们介绍了使用Mujoco物理引擎和CLEVR引擎构建的开源对象相互作用环境。我们发现,使用我们的方法,代理可以学会求解各种暂时扩展的任务,例如对象排序和多对象重排,包括来自原始像素观测值。我们的分析表明,语言的组成性质对于学习各种亚技能和系统地推广到新的亚技能至关重要,与使用相同监督的非复合抽象相比,语言的构成性质至关重要。2
摘要动物运动和神经力学控制的研究提供了有价值的见解9,用于推进神经科学,生物力学和机器人技术的研究。我们开发了农场10(动物和机器人建模和模拟框架),开源,跨学科11框架,旨在促进对动物12运动和生物启发的机器人系统的建模,模拟和分析。通过提供一个可访问且用户友好的13个平台,农场旨在降低研究人员探索神经系统,肌肉骨骼结构及其环境之间复杂相互作用的障碍。以模块化的方式整合15个Mujoco物理引擎,农场可以实现现实的模拟,并促进16神经科学家,生物学家和机器人主义者之间的合作。农场已经被广泛用于研究动物的运动,例如小鼠,果蝇,鱼,sal和18个cent,是研究中央模式发生器和19个感觉反馈的作用的平台。本文提供了农场框架的概述,讨论了其20种跨学科方法,通过特定的案例研究展示了其多功能性,并强调了21在促进我们对运动的理解方面的有效性。总体而言,农场的目标是22个有助于更深入地了解动物运动,创新23个生物启发的机器人系统的发展,并促进神经力学研究中的可及性。24
在现代操纵器交互任务中,由于环境的复杂性和不确定性,准确的对象表面建模通常很难实现。因此,改善操纵器与环境之间相互作用的适应性和稳定性已成为相互作用任务的重点之一。针对操纵器的互动任务,本文旨在在视觉指导下实现良好的力量控制。因此,基于Mujoco(带有触点的多关节动力学)物理引擎,我们为操纵器构建了交互式仿真环境,并创新地集成了基于位置的视觉伺服控制和录取控制。通过深度强化学习(DRL)中的近端策略优化(PPO)算法,有效地集成了视觉信息和力量信息,并提出了结合视觉感知的接收性控制策略。通过比较实验,将允许控制与视觉感知相结合,并将力控制的整体性能提高了68.75%。与经典的入学控制相比,峰值控制精度提高了15%。 实验结果表明,在平坦和不规则的凹面环境中,允许控制与视觉感知结合表现良好:它不仅可以准确地执行视觉构成的力控制任务,而且还可以在各种接触表面上维持施工力,并迅速适应环境变化。与经典的入学控制相比,峰值控制精度提高了15%。实验结果表明,在平坦和不规则的凹面环境中,允许控制与视觉感知结合表现良好:它不仅可以准确地执行视觉构成的力控制任务,而且还可以在各种接触表面上维持施工力,并迅速适应环境变化。在精确组装,医疗援助和服务操纵器的领域中,它可以提高操纵器在复杂和不确定的环境中的适应能力和稳定性,从而促进智能操纵器的自主操作的发展。