在各种平民和军事应用中,例如监视,检查,搜索和救援,机器人系统变得重要并变得越来越有用。尤其是,始终期望良好发达的自主系统使人免受危险和未知环境中的操作风险。但是,对于自主系统操作,具有此类特征的环境通常更具挑战性。例如,在受GPS有限的环境中,需要机器人来估计其状态并仅在传感器测量上做出决定,而无需访问精确的位置信息[1]。在工业场景中具有复杂的结构化环境,具有移动的人类和机器人,如图1,需要自主无人机才能在混乱的环境中导致其目标,并确保与人类的安全。因此,一个稳定的无人机硬件平台和安全的轨迹计划软件框架对于处理复杂的环境结构,动态障碍以及来自测量噪声和无法预测的移动障碍行为至关重要[2]。
摘要 - 自动共享系统(BSS)代表了一种可持续有效的城市运输解决方案。BSS的一个主要挑战是重新定位自行车,以避免用户遇到空或完整的自行车储物柜时短缺。现有算法在很大程度上依赖于精确的需求预测,并且倾向于忽略与重新分配相关的大量运营成本。本文介绍了一种新颖的成本感知自适应自行车重新定位剂(CABRA),该剂利用了基于码头的BSS中先进的深层强化学习技术。通过对需求模式进行了要求,Cabra学习了旨在降低短缺和提高卡车路线计划效率的自适应重新定位策略,从而大大降低了运营成本。我们利用都柏林,伦敦,巴黎和纽约的现实数据进行了对CABRA的广泛实验评估。报告的结果表明,Cabra达到了运营效率,其表现优于或匹配非常具有挑战性的基准,从而获得了大幅降低的成本。在由1765个对接站组成的最大城市的表现强调了拟议解决方案的效率和可扩展性,即使在拥有大量对接站的BSS上也是如此。
定量交易(QT)是指在分析金融市场中的数学模型和数据驱动技术的使用,自1970年代以来一直是学术界和金融业的一个流行话题。在过去的十年中,强化学习(RL)在许多领域(例如机器人和视频游戏)中引起了重大兴趣,这是由于其出色地解决了复杂的顺序决策问题。rl的影响无处不在,最近证明了其征服许多挑战QT任务的能力。这是一个蓬勃发展的研究方向,可以探索RL技术在QT任务上的潜力。本文旨在提供对基于RL的QT任务方法的研究工作的全面调查。更具体地说,我们设计了基于RL的QT模型的分类法,以及对最新现状的全面摘要。最后,我们讨论了当前的挑战,并在这个令人兴奋的领域提出了未来的研究指示。
摘要 - 强化学习方法表明,在无人系统中解决具有挑战性的方案的问题。然而,在高度复杂的环境中解决长期决策序列,例如在密集的情况下的连续车道变化和超车仍然具有挑战性。尽管现有的无人车系统取得了长足的进步,但最大程度地降低了驱动风险是第一个考虑。风险意识的强化学习对于解决潜在的驾驶风险至关重要。但是,在无人车辆中应用的现有强化学习算法并未考虑多种风险来源带来的风险的可变性。基于上述分析,本研究提出了一种具有风险感知的加强学习方法,并通过驱动任务分解,以最大程度地减少各种来源的风险。特别是,构建了风险潜在领域,并结合了强化学习以分解驾驶任务。建议的强化学习框架使用不同的风险分支网络来学习驾驶任务。此外,提出了针对不同风险分支的低风险发作抽样方法来解决高质量样本的短缺并进一步提高采样效率。此外,采用了一种干预培训策略,其中人工电位场(APF)与增强学习相结合以加快训练并进一步确保安全。最后,提出了完整的干预风险分类双胞胎延迟的深层确定性政策梯度任务分解(IDRCTD3-TD)算法。两个具有不同困难的场景旨在验证该框架的优越性。结果表明,所提出的框架在性能方面具有显着改善。
大型语言模型(LLM)在为增强学习(RL)任务设计奖励功能方面显示出巨大的潜力。但是,获得高质量奖励代码通常涉及人类干预,大量LLM查询或重复的RL培训。为了解决这些问题,我们提出了卡片,即迭代生成和改进奖励功能代码的LLM驱动奖励设计框架。具体来说,卡包括生成和验证代码的编码器,而评估器则提供动态反馈,以指导编码器改进代码,从而消除了对人类反馈的需求。除了过程反馈和轨迹反馈外,我们还引入了轨迹偏好评估(TPE),该评估(TPE)基于轨迹偏好评估当前的奖励函数。如果代码失败了TPE,则评估器会提供偏好反馈,避免在每次迭代时进行RL培训,并使奖励功能与任务目标更好地保持一致。对Meta-World和Maniskill2的经验结果表明,我们的方法在任务性能和令牌效率之间取得了有效的平衡,在所有任务中都优于或匹配基线。在12个任务中的10个任务中,卡表现出与经过专家设计的奖励训练的政策更好或可比的性能,我们的方法甚至超过了3个任务的Oracle。
中央服务器。中央服务器然后从这些数据中学习,并指示代理如何在特定情况下采取行动。昏迷(反事实多代理策略梯度)是一种使用CTDE方法设计的算法[3]。使用CTDE结构的另一种算法是QMIX [4]。QMIX结合了单个代理商的回报,以创造全部奖励,以最大程度地提高这种全部奖励。在此过程中,QMIX学习了如何控制每个代理以有效地为整体奖励增加做出贡献。另一方面,顾名思义,Commnet [5]引起了自己的通信神经网络,允许每个代理人直接与其他代理人共享信息。促进合作的另一种方法是在团体奖励和个人奖励之间建立联系。liir(学习个人的内在奖励)提出了一个学习个人奖励的神经网络,鼓励每个代理人自愿为整体群体奖励做出贡献[6]。
图2:左:在交叉环境中的不同场景的描述,代理控制银色汽车。两辆汽车都同时进入交叉路口,但是代理商不知道迎面而来的绿色汽车是向左转(左图)还是向右转(右图)。如果代理商太快地驱动到交叉路口,则可能会发生碰撞。右:学识渊博的(单峰)模型和地面真相分布p(− y s +1 | s t,a t),其中s t =(2,0,2,0),动作是要加速。在最大似然训练后,单峰模型错误地将大概率质量放在状态空间的不切实际区域。歧视器产生重要的权重(黑色箭头,日志刻度),使模型在不切实际的区域中的样本下降。
工具性学习涉及皮质纹状体回路和多巴胺能系统。该系统通常在强化学习 (RL) 框架中通过逐步积累状态和动作的奖励值来建模。然而,人类学习也涉及参与高级认知功能的前额叶皮质机制。这些系统的相互作用仍然不太清楚,人类行为模型经常忽略工作记忆 (WM),因此错误地将行为差异分配给 RL 系统。在这里,我们设计了一个任务,突出了这两个过程的深刻纠缠,即使在简单的学习问题中也是如此。通过系统地改变学习问题的大小和刺激重复之间的延迟,我们分别提取了负载和延迟对学习的 WM 特定影响。我们提出了一种新的计算模型,该模型解释了在受试者行为中观察到的 RL 和 WM 过程的动态整合。将容量有限的 WM 纳入模型使我们能够捕获在纯 RL 框架中无法捕获的行为差异,即使我们(难以置信地)允许每个集合大小的 RL 系统分开。 WM 成分还允许对单个 RL 过程进行更合理的估计。最后,我们报告了两种基因多态性对前额叶和基底神经节功能具有相对特异性的影响。编码儿茶酚-O-甲基转移酶的 COMT 基因选择性地影响了 WM 容量的模型估计,而编码 G 蛋白偶联受体 6 的 GPR6 基因则影响了 RL 学习率。因此,这项研究使我们能够指定高级和低级认知功能对工具学习的不同影响,超出了简单 RL 模型提供的可能性。