摘要 - 在某些情况下,任何自主控制器都会不安全。定量确定这些不安全情况何时即将发生的能力对于及时的人类监督,例如货运运输应用至关重要。在这项工作中,我们证明了代理人情况的真正批判性可以牢固地定义为鉴于某些随机行动的奖励的平均减少。可以将实时计算的临界指标(即,不实际模拟随机动作的效果)与真正的临界性进行比较,我们展示了如何利用这些代理指标来产生安全边际,这直接将潜在不正确的行动与预期的损失联系起来,以使其在整体绩效中造成预期损失。我们在ATARI环境中评估了从APE-X和A3C学习的策略的方法,并证明了随着代理的接近故障状态,安全利润如何降低。将安全利润集成到监视部署的代理的程序中,可以实时识别潜在的灾难性情况。
我们将系统的任务性能以及系统开发和部署过程中产生的时间和资源成本纳入总体框架,从而重新构建对人工智能进展的分析。这些成本包括:数据、专家知识、人工监督、软件资源、计算周期、硬件和网络设施以及(什么样的)时间。这些成本分布在系统的生命周期中,可能对不同的开发人员和用户提出不同的要求。我们提出的多维性能和成本空间可以缩减为一个效用指标,用于衡量系统对不同利益相关者的价值。即使没有单一的效用函数,也可以通过人工智能是否扩展帕累托曲面来一般性地评估人工智能的进步。我们将这些类型的成本标记为人工智能进步中被忽视的维度,并使用四个案例研究对其进行探索:Alpha*(围棋、国际象棋和其他棋盘游戏)、ALE(Atari 游戏)、ImageNet(图像分类)和虚拟个人助理(Siri、Alexa、Cortana 和 Google Assistant)。这种更广泛的人工智能进步模型将带来评估人工智能系统潜在社会用途和影响的新方法,并为未来的进步设定里程碑。
●带有可变步骤频率的TD3:学习控制任务的步骤频率。●具有离散状态空间的基于模型的强化学习。●了解基于模型的离线强化学习的不确定性估计和安全政策改进●研究现实世界中的Cassie机器人的离线增强学习学习●抽象空间中的计划:通过计划模型从计划模型中学习策略,从期权模型中学习策略●适应性PID控制器:研究对控制策略的ADAPTIVE PID PID属性学习。●学习有限的空间门控复发神经网络。●策略梯度带有奖励分解:利用有方面奖励的策略梯度的变化。●深入增强学习算法的性能比较:DQN,DDQN,决斗体系结构和A3C对Atari进行了测试。●使用共形预测降低深神经网中的歧义:在深神经网络中,结构性预测的输出量最小化导致不确定性较小。●自主驾驶的直接感知:通过捕获观察值的时间特征来增强现有方法。
海得拉巴 ICAR、ATARI、Zone X 主任 Shaik N Meera 博士讨论了世界土壤日及其主题“关爱土壤:测量、监测、管理”。他表示,自然农法是留给子孙后代的健康地球母亲。通过提高土壤碳含量和水分利用效率,NF 中的土壤微生物和生物多样性得到增加。他介绍了 NMNF(国家自然农法),在 NMNF 下,将在 Krishi Vigyan Kendras (KVKs)、农业大学 (AUs) 和农民田地建立约 2000 个 NF 模范示范农场,并由经验丰富且训练有素的农民主培训师提供支持。感兴趣的农民将在模范示范农场接受 NF 实践包的培训,包括 NF 投入品的准备和在 NF 农民田地中的实践。约 187.5 万名经过培训的农民将利用自己的牲畜或从生物资源中心 (BRC) 采购,准备 Jeevamrit、Beejamrit 等投入品。将部署约 30,000 名 Krishi Sakhis,以提高集群中经过培训的农民的认识、动员和指导。
学习做出时间预测是强化学习算法的关键组成部分。从在线数据流学习预测的主要范式是时间差异(TD)学习。在这项工作中,我们引入了一种新的TD算法 - SWIFTTD,该算法比存在算法更准确地预测。SwiftTD将真实的在线TD(λ)与每个功能尺寸的参数,阶梯尺寸优化,对资格矢量的更新上的绑定和阶梯型衰减相结合。每个功能的阶梯尺寸参数和阶梯大小的优化通过增加重要信号的台阶参数并减少无关信号来证明信用分配。更新到eLigility Vector的界限可防止过度校正。阶梯尺寸衰减如果太大,则降低了阶梯尺寸的参数。我们基于Atari预测基准测试了SwiftTD,并表明即使使用线性函数近似,它也可以学习准确的预测。我们进一步表明,SwiftTD在其广泛的超参数中表现良好。最后,我们证明SwiftTD可以用于神经网络的最后一层以提高其性能。
人类学习世界内部模型,以支持复杂环境中的计划和概括。然而,尚不清楚如何在大脑中代表和学习这种内部模型。我们使用基于理论的增强学习来解决这个问题,这是一种基于模型的增强学习形式,其中模型是一种直观的理论。我们分析了来自人类参与者的fMRI数据,学习玩Atari风格的游戏。我们在前额叶皮层和额叶皮层,枕皮层和梭状回中的理论更新中发现了理论表示的证据。理论更新与理论表示的瞬时加强一致。理论更新期间的有效连通性表明,信息从前额叶理论编码区域流向后理论更新区域。一起,我们的结果与神经结构一致,在该神经体系结构中,自上而下的理论表示形式源于前额叶区域的视觉区域中的感觉预测,在该区域中,计算出符合理论预测错误并触发理论的自下而上的更新。
在不同数据集中训练的语言模型通过文本学习解锁概括。增强学习(RL)策略可以通过在序列模型的内存中获得元学习来实现相似的效果。但是,Meta-RL研究主要侧重于适应单个任务的微小变化。在不面对多任务优化挑战的情况下,很难扩展更一般的行为,而很少有解决方案与Meta-RL从大型未标记任务中学习的目标兼容。为了应对这一挑战,我们重新审视了一个想法,即多任务RL被跨不同任务的不平衡返回量表造成的不平衡训练损失所瓶颈。我们建立在基于变压器(内在)元RL的最新进步的基础上,并评估了一个简单但可扩展的解决方案,在该解决方案中,代理人的演员和评论家的目标都转换为分类术语,这些术语将从当前的回报量表中脱离优化。Meta-World ML45,多游戏Procgen,Multi-Task Popgym,Multi-Game Atari和Babyai中的大规模比较发现,这种设计在没有明确任务标签的情况下将在线多任务改编和记忆问题上取得了重大进展。
自然智力过程经历了连续的流,传感,表演和学习的实时时刻。流学习,经典增强学习(RL)算法(例如Q-学习和TD)的作案手法,通过使用最新样本而无需存储,模仿自然学习。这种方法也是资源约束,通信限制和隐私敏感应用程序的理想选择。但是,在深度RL中,学习者几乎总是使用批处理更新和重播缓冲区,从而使它们在计算上昂贵且与流学习不相容。尽管批处理深度RL的流行率通常归因于其样品效率,但缺乏流式流式RL的更关键原因是其频繁的不稳定性和未能学习,我们将其称为流屏障。本文介绍了Stream-X算法,这是一类Deep RL算法,以克服批次RL的预测和控制以及匹配样品效率的流屏障。通过Mujoco Gym,DM Control和Atari Games的实验,我们通过我们的Stream-X算法展示了现有算法的流屏障和成功的稳定学习:流Q,流AC和Stream TD,在DM控制犬环境中实现最佳的模型无模型性能。一组通用技术是Stream-X算法的基础,可以通过一组超参数获得成功,并允许轻松扩展到其他算法,从而恢复流式的RL。
自主代理向用户保证了个性化的未来,允许他们将注意力转移到对他们最有意义的任务上。但是,个性化的需求无法实现诸如机器学习之类的车型训练范式,这需要许多数据订单才能培训代理的单个任务。在顺序决策域中,加强学习(RL)可以实现这一需求,当对所需行为的先验培训非常棘手时。先前的工作已利用用户输入来培训代理将其映射到数值奖励信号。但是,最近的方法已经确定了不一致的人类反馈是实现最佳表现的瓶颈。在这项工作中,我们提供了经验证据,以表明受对比影响影响的人类感知会扭曲其对强化学习者的反馈。通过一系列研究,涉及来自亚马逊机械土耳其人的900名参与者,他们被要求向RL代理提供反馈,我们表明,参与者在接触了同一任务上具有较高能力的代理商后,明显低估了代理商的行动。为了了解这种影响在训练过程中对代理的重要性的重要性,然后我们模拟了培训师,这些培训师基于过去的性能(创建系统偏向的反馈信号)对代理的动作进行了低估 - 整合到了Actor-Critic框架中。我们的结果表明,在Atari环境中人类反馈中有系统偏斜的情况下,代理性能最多可降低98%。我们的工作提供了对人类反馈不一致的源头的概念理解,从而为人类代理人的互动设计提供了信息。
内在人在环强化学习 (HITL-RL) 是一种通过使用可穿戴脑电图 (EEG) 耳机捕捉脑电波来隐式获取人类反馈的方法。它可以显著加速 RL 算法的训练收敛,同时减轻参与训练循环的人类的负担。虽然人类自然会观察 RL 代理的表现,但代理的任何错误行为都可以通过 EEG 信号中的误差电位 1 (ErrP) 识别。然后可以将此信息合并到 RL 算法的奖励函数中以加速其学习。因此,误差电位的检测精度会显著影响 RL 算法的收敛时间。这项工作的重点是使用仅使用现成的 EEG 可穿戴设备检测到的用户脑电波来可靠地检测误差电位。我们首先提出一种新的误差电位解码算法,该算法利用 EEG 信号的空间、时间和频域特性。我们开发了三个类似 Atari 的游戏环境,并招募了 25 名志愿者进行评估。所提出的算法实现了 73.71% 的准确率(比目前最先进的算法提高了 8.11%)。然后我们展示了一种智能丢弃低置信度估计的改进算法能够将准确率提高到 79.51%(提高了 16.63%)。