摘要 - 深处增强学习(RL)已经获得了自动在现代芯片设计中生成位置的人口。但是,这些RL模型产生的平面图的视觉样式与手动布局的样式大不相同,因为RL垫片通常只采用诸如Wirelength和Routing Expestion之类的指标作为增强学习的奖励,而忽略了人类专家的复杂且细腻的布局经验。在本文中,我们提出了一个安置得分手,以评估布局的质量,并将异常检测应用于地板计划。此外,我们将该得分手的输出添加为加强安置过程的奖励的一部分。ISPD 2005基准的实验结果表明,我们提出的放置质量得分手可以根据人类工艺风格有效地评估布局,并且将此得分手添加到增强式学习奖励中,有助于与以前的电路设计相比,用更短的线长度生成较短的线长度。索引术语 - 地板,加固倾斜,异常检测,放置得分手
小麦的复杂进化史已经塑造了其相关的根微生物群落。但是,考虑农业强化的影响是有限的。这项研究调查了内源性(基因组多倍体化)和外源性(化肥的引入)因素如何形成有益根瘤菌的选择。,我们结合了与培养的依赖性和依赖性方法,分析根瘤菌群落组成及其在根 - 土壤界面上的相关功能,来自一系列祖先和现代小麦基因型,随着和不添加化学肥料而生长。在受控的盆栽实验中,受精和土壤室(根际,根茎)是塑造根瘤菌群落组成的主要因素,而小麦基因组从二倍体到异源倍倍倍化植物的扩展导致了下一个最大的变化。根茎衍生的可培养的细菌收集植物生长促进(PGP)的特征表明,施肥会降低大多倍小麦中假定的植物生长促进性根瘤菌的丰度,但在野生小麦祖细胞中没有。这些分离株的分类学分类表明,这些差异在很大程度上是由代表多倍体小麦中细菌杆菌的有益根细菌选择的选择驱动的。此外,与二倍体野生小麦相比,六倍小麦有益细菌种群的复杂性大大降低。因此,我们建议以肥料依赖性的方式驯化与PGP功能的根相关细菌属可能会受到损害,这是指导未来的植物育种计划的潜在至关重要的发现,以在不断变化的环境中改善作物生产系统。
多次无误攻击是饱和和克服导弹防御系统的最简单方法之一。为了提高针对此类攻击者群体的拦截效率,有必要根据其运动学局限性分配拦截器。此外,这样的分配方案必须是可扩展的,以应对大型方案并允许动态重新分配。在本文中,我们首先提出了这种武器目标分配(WTA)问题的新表述,并提供了使用加固学习(RL)以及贪婪的搜索算法来解决它的分散方法。从每个追随者与所有目标的角度考虑参与。同时,其他拦截器与目标群体相关,而其他团队成员则可以使用其分配和成功概率。为了改善中途轨迹的塑造,在追随者和进来的对手之间放置了静态虚拟目标。每个拦截器根据从计算有效的仿真环境中的大量场景中学到的策略动态选择目标。RL输入状态包含目标的拦截器达到性覆盖范围以及其他导弹成功的概率。RL奖励汇总了团队绩效,以鼓励在分配层面上进行合作。相关的可及性约束是通过采用拦截器运动的运动学近似来分析获得的。RL的使用确保所有拦截器的实时可扩展和动态重新分配。我们将基于RL的分散WTA和指导方案与贪婪解决方案的性能进行比较,显示了RL的性能优势。
存在强化学习之类的应用,例如医学,其中政策需要被人类“解释”。用户研究表明,某些政策类可能比其他政策类更容易解释。但是,进行人类的政策解释性研究是昂贵的。此外,没有明确的解释性定义,即没有明确的指标来解释性,因此主张取决于所选的定义。我们解决了通过人类解释性的经验评估政策的问题。尽管缺乏明确的定义,但研究人员对“模拟性”的概念达成了共识:政策解释性应与人类如何理解所给出的政策行动有关。为了推进可解释的强化学习研究,我们为评估政策解释性做出了新的方法。这种新方法依赖于代理来进行模拟性,我们用来对政策解释性进行大规模的经验评估。我们使用模仿学习来通过将专家神经网络提炼为小程序来计算基线政策。然后,我们表明,使用我们的方法来评估基准解释性会导致与用户研究相似的结论。我们表明,提高可解释性并不一定会降低表现,有时会增加它们。我们还表明,没有政策类别可以更好地跨越各个任务的可解释性和绩效进行交易,这使得研究人员有必要拥有比较政策可解释性的方法。
A.像Keilor Transformer更换一样,类似的估计资本成本为1.4亿美元。对于此RIT-T的基本案例中已经包含了此费用,因此不包括更换Keilor Transformers的类似费用。 B.Keilor Transformer替换1000 MVA变压器的估计资本成本为1.5亿美元。5390万美元代表升级到1000 MVA变压器的增量成本,当时现有的变压器应在2029年更换,以及促进变压器升级所需的故障缓解工程的成本。
随着人工智能的快速发展,这项技术已经走出工业和实验室,进入了人们的日常生活。一旦人工智能和机器人代理进入日常家庭,它们就需要能够考虑人类的需求。借助诸如强化学习人类反馈 (RLHF) 之类的方法,代理可以通过学习奖励函数或直接基于其反馈优化策略来学习理想的行为。与受益于互联网规模数据的视觉模型和大型语言模型 (LLM) 不同,RLHF 受限于所提供的反馈量,因为它需要额外的人力投入。在本论文中,我们研究如何减少人类提供的反馈量,以减轻他们在估计奖励函数时的负担,同时又不降低估计值。我们从基于偏好的学习角度研究了反馈的信息量和效率之间的根本权衡。为此,我们介绍了多种方法,这些方法可以分为两类:隐式方法,无需额外的人力投入即可提高反馈质量;显式方法,旨在通过使用更多反馈类型来大幅增加信息量。为了隐式地提高偏好反馈的效率,我们研究如何利用主动学习 (AL),通过变分自编码器 (VAE) 从已学习表征的不同聚类中策略性地选取样本,从而提高样本的多样性。此外,我们利用偏好对之间的独特关系,通过在 VAE 的潜在空间上进行插值来执行数据合成。虽然隐式方法具有无需额外工作量的优势,但它们仍然存在偏好本身所能提供的信息量有限的问题。轨迹偏好的一个局限性是没有折扣,这意味着如果一条轨迹是偏好的,则假设整个轨迹都是偏好的,从而导致偶然的混淆。因此,我们引入了一种称为亮点的新反馈形式,让用户在轨迹上显示哪些部分是好的,哪些部分是坏的。此外,利用 LLM,我们创建了一种方法,让人类通过自然语言解释他们的偏好,以推断哪些部分是偏好的。总体而言,本论文摆脱了互联网规模数据的假设,并展示了如何通过较少的人工反馈实现一致性。
摘要 - 这项研究提出了一种创新的方法,可用于由四个可压缩肌腱驱动的软执行器启用的软四倍机器人的最佳步态控制。柔软的四足机器人与刚性的机器人相比,已广泛认可,可提供增强的安全性,较低的重量以及更简单的制造和控制机制。然而,它们的高度变形结构引入了非线性动力学,使得精确的步态运动控制复合物。为了解决这一问题,我们提出了一种基于模型的新型增强学习(MBRL)方法。该研究采用多阶段方法,包括国家空间限制,数据驱动的替代模型培训和MBRL开发。与基准方法相比,所提出的方法显着提高了步态控制策略的效率和性能。开发的策略既适合机器人的形态,既适合又有能力。这项研究结论是在实际情况下强调这些发现的实际适用性。索引术语 - 四倍的机器人,软执行器,增强学习,步态控制
Bertsekas教授因其著作《神经动力学节目》(Neuro-Dynamic Programming)的界面和科学之间的界面中的卓越奖而获得了Informs奖,该奖项(与John Tsitsiklis合着),2001年的AACC John R. Ragazzini教育奖,2009年的AACC RICH奖,2014年AAC批准了2014年的ACC奖。 Khachiyan优化终身成就奖,2015年MOS/Siam George B. Dantzig奖和2022年IEEE Control Systems奖。2018年,他与他的合着者约翰·蒂西克利(John Tsitsiklis)分享了2018年,为约翰·冯·诺伊曼(John von Neumann)理论奖提供了研究专着“平行和分布式计算”和“神经动态程序”的贡献。贝特塞卡(Bertsekas)教授于2001年当选为美国国家工程学院的“对优化/控制理论的基础研究,实践和教育的开创性贡献”。
我们和其他动物学习,因为我们不确定世界上存在一些方面。这种确定性是由于最初的无知而产生的,以及我们不完全了解的世界的变化。当发现我们对世界的预测是错误的时,通常可以明显看出。Rescorla-Wagner学习规则指定了一种预测错误会导致学习的方式,它具有极大的影响力,作为Pavlovian调节的特征,并通过与Delta规则相等的方式,在更广泛的学习问题中。在这里,我们在贝叶斯环境中回顾了撤销瓦格纳规则的嵌入,这是关于不确定性与学习之间的联系的精确联系,从而讨论了诸如Kalman过滤器,结构学习及其他等建议的扩展,这些建议集体涵盖了更广泛的不确定性范围,并适应了条件的范围。
