罗素的工作旨在确保人类和越来越有能力的AI系统的安全和有益共存。罗素(Russell)创造的核心问题是图灵,维纳(Wiener),明斯基(Minsky)和博斯特罗姆(Bostrom)等:一种功能强大的优化器,其目标与“人类的最大利益”不一致可能导致不可逆转的局势,在这种情况下,这些利益不再持续下去。Russell的解决方案是从他先前引入反向加固学习中借用的,它是自1950年代以来绝大多数AI研究的核心假设:假设AI系统具有固定的优化目标。这个假设是为解决问题,计划,MDP,强化学习等所有工作的基础,因为AI进入了真实的开放式世界。Russell提出,AI应作为“援助游戏”,其中AI系统的唯一目标是进一步的人类利益,但明确不确定这些利益是什么。关键结果是援助游戏求解器对人类非常有益。通过他的书《人类兼容》,《 BBC Reith讲座》和许多其他出版物,罗素一直是建立AI安全领域的领先人物。
我们感兴趣的是设计计算高效的架构来解决有限时域马尔可夫决策过程 (MDP),这是一种流行的多阶段决策问题建模框架 [1,22],具有广泛的应用,从数据和呼叫中心的调度 [12] 到间歇性可再生资源的能源管理 [13]。在 MDP 中,在每个阶段,代理都会根据系统状态做出决策,从而获得即时奖励,并相应更新状态;代理的目标是找到一个最优策略,使时间范围内的总预期奖励最大化。虽然寻找解决 MDP 的有效算法一直是一个活跃的研究领域(有关调查请参阅 [20,17]),但我们将采取不同的方法。我们不是从头开始创建新算法,而是研究如何设计架构,以创造性的方式利用现有的 MDP 算法作为“黑匣子”,以获得额外的性能提升。作为朝这个方向迈出的第一步,我们提出了时间串联启发式方法,它沿时间轴采用分而治之的方法:对于具有水平线 { 0 ,... ,T − 1 } 的 MDP,我们将原始问题实例(I 0)在水平线上划分为两个子实例:0 ,... ,T
模仿学习使代理可以在绩效指标未知并且未指定奖励信号时从专家演示中学习。标准模仿方法通常不适用于学习者和专家的参议员能力不匹配和示威的情况,并被未观察到的混杂偏见污染。为了应对这些挑战,已追求因果模仿学习的最新进步。但是,这些方法通常需要访问可能并非总是可用的基本因果结构,从而带来实际挑战。在本文中,我们研究了使用部分识别的规范马尔可夫决策过程(MDP)内的强大模仿学习,即使在系统动力学不是从混杂的专家演示中确定系统动力学的情况下,也允许代理商实现专家性能。特定的,首先,我们从理论上证明,当MDP中存在未观察到的混杂因素(UCS)时,学习者通常无法模仿专家的表现。然后,我们在部分能够识别的设置中探索模仿学习 - 从可用的数据和知识中,转移分布或奖励功能是无法确定的。增强了著名的Gail方法(Ho&Ermon,2016年),我们的分析导致了两种新颖的因果模仿算法,这些算法可以获得有效的政策,以确保实现专家绩效。
摘要:有效但充分的探索仍然是强化学习(RL)的关键挑战,尤其是对于马尔可夫决策过程(MDP),具有巨大的动作空间。以前的方法通常涉及将原始动作空间投射到潜在空间或采用环境动作面具以减少动作的可能性。尽管如此,这些方法通常缺乏可解释性或依赖专家知识。在这项研究中,我们介绍了一种新颖的方法,用于自动降低具有离散动作空间的环境中的动作空间,同时保持可解释性。所提出的方法以双重目的学习了特定于州的面具:(1)消除对MDP最小影响的动作,以及(2)在MDP中具有相同行为后果的汇总行动。具体来说,我们介绍了一个新颖的概念,称为国家(BMA)的行动(BMA)来量化MDP内行动的行为后果,并设计一个专门的掩码模型以确保其二进制性质。至关重要的是,我们提出了一个实用的学习程序,用于培训掩模模型,利用任何RL策略收集的过渡数据。我们的方法旨在插入插件和适应所有RL策略,为了验证其有效性,将其集成到两种突出的RL算法中,即DQN和PPO。从迷宫,Atari和µRTS2获得的实验结果显示在RL学习过程中有很大的加速,并且引入方法促进了促进的性能改善。
深度强化学习(RL)在某些环境中令人印象深刻,而在其他环境中却在灾难性上失败。理想情况下,RL理论应该能够理解为什么是这样,即范围可预测实践绩效。不幸的是,当前的理论还没有这种能力。我们通过引入一个新的数据集B Ridge将标准深度RL算法与先前的样本复杂性界限进行比较。它由155个确定性MDP组成,来自共同的深度RL基准,以及它们相应的表格表示,这使我们能够准确地计算实例依赖性界限。我们选择专注于确定性环境,因为它们具有随机环境的许多有趣属性,但更容易分析。使用B Ridge,我们发现先前的界限与Deep RL成功与失败时相关,而是发现了一个令人惊讶的属性。当随机策略下具有最高Q值的行动时,最佳策略也具有最高的Q值(即当对随机策略的Q函数上贪婪是最佳的)时,深度RL倾向于成功;当他们没有的时候,深度RL往往会失败。我们将此属性概括为一个新的MDP的复杂度度量,我们称之为有效的地平线,该范围与该MDP中需要多少个lookahead搜索步骤,以确定下一个最佳动作,当叶子节点随机推出评估时。使用BRIDGE,我们表明,基于Horizon的有效界限比在四个指标之间的先前样品复杂性界限更紧密地反映了PPO和DQN的经验性能。我们还发现,与现有界限不同,有效的视野可以预测使用奖励成型或预训练的勘探政策的影响。我们的代码和数据可在https://github.com/cassidylaidlaw/effective-horizon上找到。
规格适用于2025型EV3。Kia Australia保留停止或更改本表中所指产品的模型,功能,规格,期权,设计和价格的权利,而不会对任何此类产品的任何购买者或潜在购买者承担任何责任。本文的某些项目是可选的,费用为额外费用。请咨询您的起亚经销商,以获取有关模型,规格,功能,价格,选项和可用性的最新信息。注意:截至2025年3月7日,Air Trim将需要在汽车可用时进行起亚产品计划团队的所有必要检查。在检查完成之前,所有信息和插图均基于出版时可用的数据,并且可能会更改,恕不另行通知。1个充电时间基于起亚总部测试,实际充电时间将取决于充电条件,包括家庭充电类型和状况,电池温度以及环境温度。在家庭使用此产品之前,请咨询持牌电工,以确保您的家用电气系统可以支持使用。2个数字基于WLTP(全球统一的轻型车辆测试程序)静态实验室合并的城市和公路周期测试,这些测试量,乘客的乘用车中测量,能源消耗,范围和排放,旨在提供更接近现实世界驾驶行为的数字。3根据州法规和拖车设计。4 MDP-电动机驱动转向。5 dms-驱动模式选择。7无线充电与具有QI技术或适配器的电话兼容。现实生活中的驾驶结果将根据驾驶风格,旅途类型,车辆配置,电池年龄和状况,使用车辆功能(例如供暖和空调)以及操作,环境和气候条件的结合而有所不同。6个安全技术是补充系统,不取代驾驶员行使护理和关注的需求。8 HarmanKardon®是Harmon International Industries的商标。9 Kia Connect是一项连接的汽车服务,为客户提供远程车辆控制,车辆状态监控,实时交通更新等。并非所有手机都与起亚连接应用程序兼容。有关KIA Connect的更多详细信息,请访问kia.com/au/kiaconnect。10并非所有手机都将与车辆的蓝牙系统兼容。蓝牙®是蓝牙SIG的注册商标。11 Android Auto™连接需要兼容的Android设备。有关更多详细信息,请参见Android.com/intl/en_au/。Android Auto™是Google Inc.的注册商标。12Apple Carplay™连接需要兼容的iOS设备。有关更多详细信息,请参见Apple.com.au。Apple Carplay™是Apple Inc.的注册商标。
规格适用于2024型EV6。Kia Australia保留停止或更改本表中所指产品的模型,功能,规格,期权,设计和价格的权利,而不会对任何此类产品的任何购买者或潜在购买者承担任何责任。本文的某些项目是可选的,费用为额外费用。请咨询您的起亚经销商,以获取有关模型,规格,功能,价格,选项和可用性的最新信息。注意:2024年型号EV6将在可用时进行所有必要的检查。在检查完成之前,所有信息和插图均基于出版时可用的数据,并且可能会更改,恕不另行通知。1个充电时间基于起亚总部测试,实际充电时间将取决于充电条件,包括家庭充电类型和状况,电池温度以及环境温度。在家庭使用此产品之前,请咨询持牌电工,以确保您的家用电气系统可以支持使用。2个数字基于WLTP(全球统一的轻型车辆测试程序)静态实验室合并的城市和公路周期测试,这些测试量,乘客的乘用车中测量,能源消耗,范围和排放,旨在提供更接近现实世界驾驶行为的数字。现实生活中的驾驶结果将根据驾驶风格,旅途类型,车辆配置,电池年龄和状况,使用车辆功能(例如供暖和空调)以及操作,环境和气候条件的结合而有所不同。5 dms-驱动模式选择。3根据州法规和拖车设计。4 MDP-电动机驱动转向。6个安全技术是补充系统,不取代驾驶员行使护理和关注的需求。7 EBD-电子制动分布。8 BA-制动辅助。9 TCS-牵引控制系统。10,除非一个人在方向盘后面,并且他们对车辆有完全控制,否则WA的道路交通法规2000年,禁止人们驾驶车辆。使用此远程智能公园辅助(RSPA)功能将不符合此规则,因此不应在WA内使用它。11 IMS-集成的内存座椅。12无线充电与具有Qi技术或适配器的电话兼容。13Meridian®是Meridian Audio Ltd.的商标。14Android Auto™连接需要兼容的Android设备。有关更多详细信息,请参见Android.com/intl/en_au/。Android Auto™是Google Inc.的注册商标。15Apple Carplay™连接需要兼容的iOS设备。有关更多详细信息,请参见Apple.com.au。Apple Carplay™是Apple Inc.的注册商标。##高级油漆(磨砂)的额外费用与起亚真正的油漆保护。