抽象的深入强化学习表明,在视频游戏,机器人控制,官方驾驶和药物发现等不同领域的跨不同领域取得了巨大的成就。部分可观察的域中的常见方法在很大程度上倾向于从高维观测(例如图像)中端到端学习,而没有明确推理真实状态。我们提出了一个替代方向,引入了部分规定的加固学习(PSRL)框架。PSRL的核心是受监督和无监督学习的融合。该方法利用州估计器从高维观测中提取监督的语义状态信息,这些观察通常在培训时完全可用。这产生了更容易解释的政策,这些政策由控制构成状态预测。并行,捕获了一个无透视的潜在表示。这两个 - 语义状态和潜在状态 - 然后融合并用作策略网络的输入。这种并置为从业者提供了灵活而动态的范围:从强调监督的状态信息到整合富裕的潜在见解。广泛的实验结果表明,通过合并这些双重表示,PSRL提供了有效的平衡,增强了模型,可以在保存的同时使用,并且通常明显胜过表现,这是通过奖励和收敛速度以传统方法设定的性能基准。
jia-mu Sun和Lin Gao也与中国科学院一起。Kaichun Mo也在NVIDIA研究中。 这项工作得到了中国国家自然科学基金会的支持( 62322210),北京市政自然科学基金会(No. ) JQ21013)和北京市政科学技术委员会(编号 Z231100005923031)。 Kaichun Mo和Leonidas J. Guibas得到了ARL Grant W911NF-21-2-0104,Vannevar Bush教师奖学金和Adobe Corporation的礼物。 作者的地址:J.-M。 Sun,J。Yang和L. Gao(通讯作者),北京移动计算和普遍设备的主要实验室,中国科学院计算机科学研究所,北京,中国100190;电子邮件:{sunjiamu21s,yangjie01,gaolin}@ict.ac.cn;斯坦福大学的计算机科学系K.电子邮件:{kaichun,guibas }@cs.stanford.edu; Y.-K。莱,计算机科学学院和Kaichun Mo也在NVIDIA研究中。这项工作得到了中国国家自然科学基金会的支持(62322210),北京市政自然科学基金会(No.JQ21013)和北京市政科学技术委员会(编号Z231100005923031)。Kaichun Mo和Leonidas J. Guibas得到了ARL Grant W911NF-21-2-0104,Vannevar Bush教师奖学金和Adobe Corporation的礼物。作者的地址:J.-M。 Sun,J。Yang和L. Gao(通讯作者),北京移动计算和普遍设备的主要实验室,中国科学院计算机科学研究所,北京,中国100190;电子邮件:{sunjiamu21s,yangjie01,gaolin}@ict.ac.cn;斯坦福大学的计算机科学系K.电子邮件:{kaichun,guibas }@cs.stanford.edu; Y.-K。莱,计算机科学学院和
摘要 - 近年来,在线教育平台已经迅速增长,吸引了越来越多的学生进入数字学习环境。在在线教育中,学习者可以选择学习内容并更加自由地计划自己的学习路径。尽管在线教育平台为学习者提供了高度的自由度,但它减少了学习者的学习指南,这导致了诸如“信息超负荷”和“知识损失”之类的问题。主要的表现是学习者不知道如何计划学习路径,从而导致学习效率降低和学习效果不佳。为了应对这些挑战,本文提出了一种基于强化学习RLLP的学习路径建议算法。RLLP模型考虑了学习者的学习目标,知识水平以及知识点之间的关系。同时,它还考虑了学习路径和学习者的参与度的平稳性,旨在向学习者推荐高效且明智的学习路径。广泛的实验结果证明了RLLP模型的有效性。
摘要 - 我们目前RL2是一种机器人系统,用于有效,准确的UHF RFID标签。与过去的机器人RFID定位系统(主要集中在位置精度上)相比,RL2学会了如何共同优化定位的准确性和速度。为此,它引入了基于增强学习的轨迹优化网络,该网络学习了机器人安装的读取器天线的下一个最佳轨迹。我们的算法从多个RFID标签中编码孔径长度和位置置信度(使用合成驱动 - 雷达公式)到状态观测值,并使用它们来学习最佳轨迹。我们构建了RL2的端到端原型,其天线在天花板安装的2D机器人轨道上移动。我们评估了RL2,并证明了中位3D定位精度为0.55m,它与基线策略相比,它更快地定位了多个RFID标签2.13倍。我们的结果表明,基于RL的RFID本地化有可能提高跨越制造,零售和物流领域的RFID库存流程的效率。索引术语 - 增强学习,RFID本地化,机器人技术,自主定位,RF传感
摘要 - 在与人类共享的公共空间中,确保多机器人系统在没有冲突的情况下导航,而尊重社会规范是具有挑战性的,尤其是在有限的社区中。尽管当前的机器人社会导航技术利用了强化学习和深度学习的进步,但它们经常忽略模拟中的机器人动态,从而导致模拟对真实差距。在本文中,我们通过介绍一个使用DEC-POSMDP和多机构增强学习制作的新的多机器人社会导航环境来弥合这一差距。此外,我们介绍了Samarl:合作多机器人社会导航的新颖台。samarl采用独特的时空变压器与多机构增强学习结合。这种方法有效地捕获了机器人与人之间的复杂相互作用,从而促进了多机器人系统中的合作倾向。我们的广泛实验表明,在我们设计的环境中,萨玛尔的表现优于现有的基线和消融模型。这项工作的演示视频可以在以下网址找到:https://sites.google.com/view/samarl
摘要:随着地球人口的增长,尤其是城市人口的增长,固体和液体废物的处理问题日益凸显。仅在美国和欧洲,居民每年产生约670亿立方米需要处理的废水。针对每种类型的废物,全球范围内已经开发出了许多中和工艺和方法。对于废水处理,生物强化目前是最常用的方法,它也广泛应用于土壤生物修复和空气生物过滤。然而,应该记住,没有任何单一的组件可以清除所有杂质。在每种情况下,都需要对环境参数、污染物成分、现有技术和其他条件进行全面分析。虽然生物强化没有通用的机制,但已开发的流程允许您为几乎每个特定任务选择一种算法。但是,对于任何选定的操作算法,实施自动化控制系统都应该是该流程的强制性部分。优化废水处理工艺不仅可以保护环境,还能高效利用化学品,减少固体废物量,并降低能耗。因此,用于监测和控制废水处理厂的控制系统在当今世界已变得至关重要。
衍生品在支持活跃的资本市场方面发挥着关键作用,使市场参与者能够缓解不确定性、转移风险并提高回报。通过允许公司锁定发行债务的成本或确定未来海外收入兑换汇率,衍生品使公司能够自信地借贷和投资。这种对冲风险和管理风险的能力不应仅仅是主要金融中心公司的选择——新兴和发展中市场的实体也应该能够在国内使用这些工具来降低风险并促进获得资本。但安全、高效的衍生品市场并非偶然出现:它们需要对法律和监管框架进行深思熟虑的选择。ISDA 长期以来一直与新兴和发展中市场的政策制定者合作,帮助解决这些问题,我们在今年早些时候发布了一份白皮书,根据最佳实践和发达经济体的工作,探讨了一些选择和影响(见第 12-17 页)。最基本的步骤之一是确保平仓净额结算的可执行性。通过允许交易对手将其各种义务抵消为一方欠另一方的单一净额,净额结算大大降低了信用风险并提高了公司的放贷能力。它还鼓励国内外机构更多地参与,提高流动性和竞争力。ISDA 与全球各地的当局合作,帮助起草关于平仓净额结算可执行性的立法,迄今已为 80 多个司法管辖区发布了净额结算意见,为在这些市场交易的公司提供了确定性。其中最新的意见于 8 月针对中国发布,此前《期货与衍生品法》(FDL)已实施——这是中国发展运作良好的衍生品市场的一个重要里程碑(见第 18-20 页)。然而,仅靠净额结算立法还不够。地方政策制定者需要确定允许活动的范围,是否需要注册要求以及应适用哪些披露标准。还需要考虑更广泛的监管问题——例如,是否引入清算、保证金或报告要求,以及对风险治理和管理的期望。本期 IQ 更详细地探讨了支持有效和稳健的衍生品市场发展所需的条件,并分析了中国 FDL 的具体情况和可能的后续步骤。ISDA 将继续尽我们所能协助当地衍生品市场的发展——我们坚信活跃的资本市场和高效且经济地管理风险的能力应该是每个人都能实现的。