最近的研究表明,变压器可以通过模仿现有的RL算法来执行内在的增强学习(RL),从而使样本有效的适应能够适应无参数更新而无需看到的任务。但是,这些模型还继承了它们模仿的RL算法的次优行为。由于这些算法采用的逐渐更新规则,因此出现了此问题。基于模型的计划通过允许模拟在采取行动之前模拟潜在结果,提供了一种额外的机制来偏离次优行为,从而为这种限制提供了有希望的解决方案。我们没有学习Sepa-Rate Dynamics模型,而是提出了基于信用的RL框架(DICP)的蒸馏(DICP),在其中,变压器同时学习环境动力学并改善策略,并在内部进行改善。我们评估了跨多种离散和连续环境(包括暗室变体和元世界)的DICP。我们的结果表明,与基准相比,DICP可以达到最先进的性能,同时需要的环境相互作用要少得多,基本线包括无模型的对应物和现有的Meta-RL方法。该代码可在https://github.com/jaehyhyeon-son/dicp上获得。
中央服务器。中央服务器然后从这些数据中学习,并指示代理如何在特定情况下采取行动。昏迷(反事实多代理策略梯度)是一种使用CTDE方法设计的算法[3]。使用CTDE结构的另一种算法是QMIX [4]。QMIX结合了单个代理商的回报,以创造全部奖励,以最大程度地提高这种全部奖励。在此过程中,QMIX学习了如何控制每个代理以有效地为整体奖励增加做出贡献。另一方面,顾名思义,Commnet [5]引起了自己的通信神经网络,允许每个代理人直接与其他代理人共享信息。促进合作的另一种方法是在团体奖励和个人奖励之间建立联系。liir(学习个人的内在奖励)提出了一个学习个人奖励的神经网络,鼓励每个代理人自愿为整体群体奖励做出贡献[6]。
图2:左:在交叉环境中的不同场景的描述,代理控制银色汽车。两辆汽车都同时进入交叉路口,但是代理商不知道迎面而来的绿色汽车是向左转(左图)还是向右转(右图)。如果代理商太快地驱动到交叉路口,则可能会发生碰撞。右:学识渊博的(单峰)模型和地面真相分布p(− y s +1 | s t,a t),其中s t =(2,0,2,0),动作是要加速。在最大似然训练后,单峰模型错误地将大概率质量放在状态空间的不切实际区域。歧视器产生重要的权重(黑色箭头,日志刻度),使模型在不切实际的区域中的样本下降。
我们通过概括的镜头研究目标条件的RL,但不是从传统的随机增强和域随机化的意义上。相反,我们旨在学习针对地平线的概括的目标指导的政策:在训练以实现附近的目标(这很容易学习)之后,这些政策应该成功实现遥远的目标(这是非常具有挑战性的学习)。In the same way that invariance is closely linked with generalization is other areas of machine learning (e.g., normalization layers make a network invariant to scale, and therefore generalize to inputs of varying scales), we show that this notion of horizon generalization is closely linked with invariance to planning: a policy navigating towards a goal will select the same actions as if it were navigating to a waypoint en route to that goal.因此,经过培训的实现附近目标的政策应成功实现任意途中的目标。我们的理论分析证明,在某些假设下,视野概括和计划不变性都是可能的。我们提出了新的实验结果,并从先前的工作中回忆起,以支持我们的理论结果。综上所述,我们的结果为研究在机器学习的其他领域开发的不变性和概括技术的方式可能会适应以实现这种诱人的属性。
1974 年,雅马哈的员工请我为十几个新的吉他放大器和小型调音台写一些规格表。工作一完成,他们就向我展示了一款新产品。这是一台控制台,对于当时主要以乐器制造商(或摩托车制造商,如果你不是音乐家)而闻名的公司来说,它是一项重大的突破 - 跃入专业音响增强市场的核心。雅马哈表示,他们希望牢固确立自己的领导者地位,他们认为新控制台的综合使用手册将有助于完成这项工作。我们只有一块原型板和一些粗略的规格,但没有详细的图纸或数据,所以我联系了工程师 John Windt,我们测量了性能。我用铅笔和便携式打字机编写了 PM-wOO 操作手册的初稿。PM-WOO 控制台确实让 Yamaha 在专业扩声业务中名声大噪。该手册非常受欢迎,以至于必须重印多次(远远超过制造的控制台数量)。由于它详细讨论了扩声的基础知识,它成为几门大学课程的标准教材。在接下来的十年里,Yamaha 要求我为各种放大器、信号处理器、混频器等编写手册,为了保持同样的卓越标准,我们从 PM-WOO 手册开始。不幸的是,为每件产品制作和打印 30 到 60 页的说明书非常昂贵,而且很难证明其合理性 - 尤其是当只有 8 到 16 页包含“核心”操作数据时。出于这个原因,雅马哈和我都考虑过制定一个通用的扩声指南,而不是单独的操作手册。
在线强化学习 (RL) 算法通常难以部署在复杂的面向人类的应用程序中,因为它们可能学习缓慢并且早期性能较差。为了解决这个问题,我们引入了一种实用的算法,用于结合人类洞察力来加速学习。我们的算法,约束抽样强化学习 (CSRL),将先前的领域知识作为 RL 策略的约束/限制。它采用多种潜在的策略约束来保持对单个约束错误指定的鲁棒性,同时利用有用的约束来快速学习。给定一个基础 RL 学习算法(例如 UCRL、DQN、Rainbow),我们提出了一种具有消除方案的上限置信度,该方案利用约束与其观察到的性能之间的关系来自适应地在它们之间切换。我们使用 DQN 型算法和 UCRL 作为基础算法来实例化我们的算法,并在四种环境中评估我们的算法,包括三个基于真实数据的模拟器:推荐、教育活动排序和 HIV 治疗排序。在所有情况下,CSRL 都能比基线更快地学习到好的策略。
北京大学大学(中国)香港理工大学(中国)香港理工大学(中国)西北大学(美国)富丹大学(中国)加州大学加州大学戴维斯分校(美国)和香港大学,香港大学(中国)北京大学(中国)北京大学 of Washington (USA) The University of British Columbia (Canada) University of Science and Technology of China (China) ZTE Corporation (China) Chongqing University (China) ZTE Corporation (China) Beijing Institute of Technology (China) ZTE Corporation (China) Beijing Institute of Technology (China) Hosei University (Japan) Southwest Jiaotong University (China) Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences (China) Beijing University邮政与电信(中国)托库希马大学(日本)智格大学(中国)西迪安大学(中国)西安·贾兴大学(中国)彭昌实验室(中国)萨里郡萨里大学(英国)上海何数邮政与电信(中国)澳门(中国)中兴公司(中国)埃塞克斯大学(英国)新南威尔士大学(澳大利亚)EIT高级研究所(中国)北京实验室(中国)北京邮政与电信大学(中国)中国邮政局(中国)北南科学大学(新加坡)麦卡伊大学(新加坡)
。CC-BY-NC-ND 4.0 国际许可证下可用(未经同行评审认证)是作者/资助者,他已授予 bioRxiv 永久展示预印本的许可。它是此预印本的版权持有者此版本于 2023 年 11 月 14 日发布。;https://doi.org/10.1101/2023.11.12.566754 doi:bioRxiv 预印本
随着机器学习技术和应用的爆炸性增长,具有转移功率的新范式和模型正在丰富该领域。近年来最引人注目的趋势之一是里曼尼亚几何学和谎言群体理论的显着意义的迅速崛起。根本原因是数据的复杂性上升,激发了更复杂的方法,从而导致广泛认识到大量数据集表现出内在的曲率。换句话说,许多数据集自然代表或忠实地嵌入了非欧几里得空间中。这种明显的例子是机器人技术中的旋转运动。n维空间中的旋转构成谎言组,并且没有矢量空间的结构。但是,非欧盟数据的显着性远远超出了这个特定示例。略有明显,但无处不在的是双曲几何形状中的数据表示。被广泛接受的是,任何具有某些(可能是隐藏的)层次结构的数据集自然地嵌入具有恒定负曲率的Riemannian歧管中[18,19,15]。数据激发系统方法的各种非欧亚人表示的最新进展,从而引起了新兴领域,名为“几何深度学习” [8]。