本文介绍了一种新的经验方法,即交叉环境超参数调谐基准,该方法使用单个超参数设置比较了环境之间的RL算法,从而鼓励算法开发对超级参数不敏感。我们证明,即使使用了很少的样品,这种基准对统计噪声具有鲁棒性,并且在重复的范围中获得了定性相似的结果。这种鲁棒性使得基准计算上的计算便宜,从而可以以低成本的统计良好见解。我们在一组六个小型控制环境(SC-CHTB)以及28个环境(DMC-CHTB)的整个DM控制套件上演示了CHTB的两个示例实例。最后,为了说明CHTB对现代RL算法的适用性,我们对连续控制文献中的一个开放问题进行了新的经验研究。我们充满信心地表明,Ornstein-Uhlenbeck噪声和不相关的高斯噪声在DMC-CHTB上使用DDPG算法探索没有有意义的差异。
强化学习中的一个重要问题是设计了学会在环境中安全解决任务的代理。一个常见的解决方案是定义奖励功能的惩罚或到达不安全状态时要最小化的成本。但是,设计奖励或成本功能是非平凡的,并且可以随着问题的复杂性而增加。为了解决这个问题,我们调查了Minmax罚款的概念,这是不安全状态的最小罚款,导致安全最佳政策,无论任务奖励如何。我们通过考虑环境直径和可控性来得出该惩罚的上限和下限。此外,我们提出了一种简单的算法,以便在学习任务政策的同时估算这种罚款。我们的实验证明了这种方法在使代理能够在高维连续控制环境中学习安全策略的有效性。
1。简单的视觉传感器在求解视觉任务方面有多有效?2。他们的设计在有效性中扮演什么角色?我们探索具有低至一对一像素的分辨率的简单传感器,代表单个光感受器。首先,我们证明,只有几个光感受器就足以求解不同的vi-sion任务,例如视觉导航和连续控制,即相当好,即,其性能明显优于盲人代理,并与高分辨率摄像头相当。第二,我们表明这些简单的视觉传感器的设计在提供有用信息并成功解决这些任务的能力中起着至关重要的作用。为了找到一个表现出色的设计,我们提出了一种计算设计优化算法,并评估了其在不同任务和域之间的有效性,显示出令人鼓舞的结果。最后,我们进行了一项人类调查,以评估人类手动手动设计的直觉设计的有效性,这表明在大多数情况下,计算设计的设计是最好的设计之一。
决策感知模型学习的想法,该模型应该在决策重要的地方准确地是准确的,并且在基于模型的强化学习中获得了突出的重要性。虽然已经建立了有希望的理论结果,但缺乏利用决策损失的算法的经验性能,尤其是在连续控制问题中。在本文中,我们介绍了一项关于决策感知强化学习模型所需组件的研究,并展示了能够实现良好表现算法的设计选择。为此,我们对该领域的算法思想提供了理论和实证研究。我们强调,在Muzero的作品系列中建立的经验设计决策,最重要的是使用潜在模型,对于在相关算法中实现良好的性能至关重要。此外,我们表明Muzero损耗函数在随机环境中有偏见,并确定这种偏见具有实际后果。在这些发现的基础上,我们概述了哪些决策吸引的损失功能最好在经验方案中使用,从而为该领域的从业者提供了可行的见解。
抽象的稀疏奖励和样本效率是增强学习领域的开放研究领域。在考虑对机器人技术和其他网络物理系统的增强学习应用时,这些问题尤其重要。之所以如此,是因为在这些领域中,许多任务都是基于目标的,并且自然而然地表达了二进制成功和失败,动作空间较大且连续,并且与环境的实际相互作用受到限制。在这项工作中,我们提出了深层的价值和预测模型控制(DVPMC),这是一种基于模型的预测增强学习算法,用于连续控制,该算法使用系统识别,值函数近似和基于采样的优化对选择动作。该算法是根据密集的奖励和稀疏奖励任务进行评估的。我们表明,它可以使预测控制方法的性能与密集的奖励问题相匹配,并且在样本效率和性能的指标上,在稀疏奖励任务上优于模型和基于模型的学习算法。我们验证了使用DVPMC训练在仿真的机器人上培训的代理商的性能。可以在此处找到实验的视频:https://youtu.be/ 0q274kcfn4c。
最初开发用于连续控制问题的近端政策选择(PPO)已成为各种强化学习(RL)应用程序(包括生成模型的微调)的工作马。不幸的是,PPO需要多种启发式学才能实现稳定的收敛(例如价值网络,剪辑),并以其对这些组件的精确实现的敏感性而臭名昭著。回应,我们退后一步,问生成模型时代的简约RL算法是什么样的。我们提出了Rebel,这是一种算法,可简洁地减少策略优化问题,以通过两个完成之间的直接策略参数化回归相对奖励,从而使得轻量轻量级实现。从理论上讲,我们证明了像自然政策梯度这样的基本RL算法可以看作是叛军的变体,这使我们能够在RL文献中的收敛性和样本复杂性方面与最强的已知理论保证相匹配。Rebel还可以清洁地合并离线数据,并处理我们在实践中经常看到的不及物线偏好。从经验上讲,我们发现Rebel提供了一种统一的方法,用于与PPO和DPO具有更强或类似性能的语言建模和图像生成,同时比PPO更易于实现,并且在计算上更可行。
在多个量子位上表现出显着的时间和空间相关性的噪声可能对易于断层的量子计算和量子增强的计量学尤其有害。然而,到目前为止,尚未报道对即使是两数量子系统的噪声环境的完整频谱表征。我们提出并在实验上证明了基于连续控制调制的两量偏角噪声光谱的方案。通过将自旋锁定松弛度的思想与统计动机的稳健估计方法相结合,我们的协议允许同时重建所有单量和两倍的互相关光谱,包括访问其独特的非分类特征。仅采用单一QUIT控制操作和状态训练测量,而不需要纠缠状态的准备或读取两量点的可观察物。我们的实验演示使用了两个与共享的彩色工程噪声源相连的超导码位,但我们的方法可移植到各种dephasing主导的Qubit架构上。通过将量子噪声光谱推向单量环境,我们的工作预示着工程和自然发生的噪声环境中时空相关的特征。
摘要:大脑 - 计算机界面(BCIS)广泛用于严重身体残疾患者的控制应用中。一些研究人员的目的是开发实用的脑控制轮椅。基于稳态的视觉诱发电势(SSVEP)的现有脑电图(EEG)基于BCI是为了控制设备控制的。这项研究利用了可靠的现有系统的快速响应(QR)代码视觉刺激模式。使用提出的带有四个可振动频率的视觉刺激模式生成四个命令。此外,我们采用了SSVEP特征提取的相对功率谱密度(PSD)方法,并将其与绝对PSD方法进行了比较。我们设计了实验来验证所提出系统的效率。结果表明,所提出的SSVEP方法和算法在实时处理中产生的平均分类精度约为92%。对于通过基于独立的控制模拟的轮椅,提议的BCI控制需要比键盘控制的时间大约五倍以进行实时控制。使用QR码模式的建议的SSVEP方法可用于基于BCI的轮椅控制。然而,由于长期连续控制,它因视觉疲劳而受到影响。我们将在严重的身体残障人士中验证和增强拟议的轮椅控制系统。
摘要:任何严重的运动障碍都是限制与环境互动能力的疾病,即使是家庭环境,也是由于失去对行动的控制而导致的。本文介绍了 RoboEYE,这是一款电动轮椅,旨在让用户在家中轻松自主地移动。为了实现这一目标,设计了一个创新、经济高效且用户友好的控制系统,其中非侵入式眼动仪、显示器和 3D 摄像头代表了一些核心元素。RoboEYE 将移动机器人领域的功能集成到标准电动轮椅中,主要优势是为用户提供两种驾驶选择和舒适的导航。最直观和直接的模式是通过注视显示器的不同区域来预测对正面和角轮椅速度的连续控制。第二种半自主模式允许通过指向和激活所需目的地来导航到环境中的选定点,同时系统自动规划并遵循将轮椅带到该点的轨迹。本研究的目的是开发上述驱动模式的控制结构和驱动界面设计,同时考虑凝视检测的不确定性和与组件相关的其他不确定性来源,以确保用户安全。此外,通过数值模拟和实验验证对驱动模式(尤其是半自动驱动模式)进行了建模和鉴定,测试志愿者是标准电动轮椅的常规用户,以验证所提出的系统在家庭使用中的效率、可靠性和安全性。RoboEYE 适用于宽度超过 1 米的狭窄通道环境,与标准家用门相当,并且由于其特性而具有巨大的商业化潜力。
摘要。强化学习已成为一种强大的方法,用于解决各个领域的复杂连续控制任务。本文对两种突出的强化学习算法进行了广泛的比较分析:深层确定性策略梯度(DDPG)算法及其高级对应物,即Twin删除的DDPG(TD3)算法。主要的重点是评估这些算法在运动控制领域内的性能和有效性,这是一个具有实质性现实世界的领域。本研究以Walker2D问题为中心,Walker2D问题是一项具有挑战性的机能控制任务,可在OpenAI Gym环境中提供。walker2d预示着令人信服的测试床,用于评估在机器人技术,自主系统和物理控制等上下文中增强学习算法的实用性。通过对DDPG和TD3进行详细检查,作者旨在阐明其在连续控制场景中的优势和劣势。超出了学术利益,这项研究具有重要的现实意义。掌握连续控制任务对从机器人技术和自动化到医疗保健及其他地区的应用具有巨大的希望。本质上,这项研究弥合了在强化学习方面的理论进步与解决现实世界挑战方面的实际含义之间的差距。通过在苛刻的运动控制背景下对这些算法进行全面评估,这项工作有助于更广泛地理解重新学习学习的潜力,以推动各种行动中的创新和效率。