大规模的基础设施系统对社会欢迎至关重要,其有效管理需要造成各种复杂性的战略前提和干预方法。我们的研究解决了涉及下水道资产的预后和健康管理(PHM)框架内的两个挑战:对跨严重水平的管道降解并制定有效的维护政策。我们采用多州降解模型(MSDM)来代表下水道管道中的随机降解过程,并使用深度加固学习(DRL)来制定维护策略。荷兰下水道网络的案例研究例证了我们的方法论。我们的发现证明了该模型在产生超过启发式方法的智能,节省成本的维护策略方面的效率。它根据管道的年龄来调整其管理策略,选择一种被动方法,用于新的管道,并过渡到较老的策略,以防止失败和降低成本。这项研究高光DRL在优化维护政策方面的潜力。未来的研究将通过合并部分可观察性,探索各种强化学习算法并将这种方法扩展到全面的基础架构管理,以改善模型。
摘要 - 深处增强学习(RL)已经获得了自动在现代芯片设计中生成位置的人口。但是,这些RL模型产生的平面图的视觉样式与手动布局的样式大不相同,因为RL垫片通常只采用诸如Wirelength和Routing Expestion之类的指标作为增强学习的奖励,而忽略了人类专家的复杂且细腻的布局经验。在本文中,我们提出了一个安置得分手,以评估布局的质量,并将异常检测应用于地板计划。此外,我们将该得分手的输出添加为加强安置过程的奖励的一部分。ISPD 2005基准的实验结果表明,我们提出的放置质量得分手可以根据人类工艺风格有效地评估布局,并且将此得分手添加到增强式学习奖励中,有助于与以前的电路设计相比,用更短的线长度生成较短的线长度。索引术语 - 地板,加固倾斜,异常检测,放置得分手
存在强化学习之类的应用,例如医学,其中政策需要被人类“解释”。用户研究表明,某些政策类可能比其他政策类更容易解释。但是,进行人类的政策解释性研究是昂贵的。此外,没有明确的解释性定义,即没有明确的指标来解释性,因此主张取决于所选的定义。我们解决了通过人类解释性的经验评估政策的问题。尽管缺乏明确的定义,但研究人员对“模拟性”的概念达成了共识:政策解释性应与人类如何理解所给出的政策行动有关。为了推进可解释的强化学习研究,我们为评估政策解释性做出了新的方法。这种新方法依赖于代理来进行模拟性,我们用来对政策解释性进行大规模的经验评估。我们使用模仿学习来通过将专家神经网络提炼为小程序来计算基线政策。然后,我们表明,使用我们的方法来评估基准解释性会导致与用户研究相似的结论。我们表明,提高可解释性并不一定会降低表现,有时会增加它们。我们还表明,没有政策类别可以更好地跨越各个任务的可解释性和绩效进行交易,这使得研究人员有必要拥有比较政策可解释性的方法。
A.像Keilor Transformer更换一样,类似的估计资本成本为1.4亿美元。对于此RIT-T的基本案例中已经包含了此费用,因此不包括更换Keilor Transformers的类似费用。 B.Keilor Transformer替换1000 MVA变压器的估计资本成本为1.5亿美元。5390万美元代表升级到1000 MVA变压器的增量成本,当时现有的变压器应在2029年更换,以及促进变压器升级所需的故障缓解工程的成本。
随着人工智能的快速发展,这项技术已经走出工业和实验室,进入了人们的日常生活。一旦人工智能和机器人代理进入日常家庭,它们就需要能够考虑人类的需求。借助诸如强化学习人类反馈 (RLHF) 之类的方法,代理可以通过学习奖励函数或直接基于其反馈优化策略来学习理想的行为。与受益于互联网规模数据的视觉模型和大型语言模型 (LLM) 不同,RLHF 受限于所提供的反馈量,因为它需要额外的人力投入。在本论文中,我们研究如何减少人类提供的反馈量,以减轻他们在估计奖励函数时的负担,同时又不降低估计值。我们从基于偏好的学习角度研究了反馈的信息量和效率之间的根本权衡。为此,我们介绍了多种方法,这些方法可以分为两类:隐式方法,无需额外的人力投入即可提高反馈质量;显式方法,旨在通过使用更多反馈类型来大幅增加信息量。为了隐式地提高偏好反馈的效率,我们研究如何利用主动学习 (AL),通过变分自编码器 (VAE) 从已学习表征的不同聚类中策略性地选取样本,从而提高样本的多样性。此外,我们利用偏好对之间的独特关系,通过在 VAE 的潜在空间上进行插值来执行数据合成。虽然隐式方法具有无需额外工作量的优势,但它们仍然存在偏好本身所能提供的信息量有限的问题。轨迹偏好的一个局限性是没有折扣,这意味着如果一条轨迹是偏好的,则假设整个轨迹都是偏好的,从而导致偶然的混淆。因此,我们引入了一种称为亮点的新反馈形式,让用户在轨迹上显示哪些部分是好的,哪些部分是坏的。此外,利用 LLM,我们创建了一种方法,让人类通过自然语言解释他们的偏好,以推断哪些部分是偏好的。总体而言,本论文摆脱了互联网规模数据的假设,并展示了如何通过较少的人工反馈实现一致性。
摘要 - 这项研究提出了一种创新的方法,可用于由四个可压缩肌腱驱动的软执行器启用的软四倍机器人的最佳步态控制。柔软的四足机器人与刚性的机器人相比,已广泛认可,可提供增强的安全性,较低的重量以及更简单的制造和控制机制。然而,它们的高度变形结构引入了非线性动力学,使得精确的步态运动控制复合物。为了解决这一问题,我们提出了一种基于模型的新型增强学习(MBRL)方法。该研究采用多阶段方法,包括国家空间限制,数据驱动的替代模型培训和MBRL开发。与基准方法相比,所提出的方法显着提高了步态控制策略的效率和性能。开发的策略既适合机器人的形态,既适合又有能力。这项研究结论是在实际情况下强调这些发现的实际适用性。索引术语 - 四倍的机器人,软执行器,增强学习,步态控制
Bertsekas教授因其著作《神经动力学节目》(Neuro-Dynamic Programming)的界面和科学之间的界面中的卓越奖而获得了Informs奖,该奖项(与John Tsitsiklis合着),2001年的AACC John R. Ragazzini教育奖,2009年的AACC RICH奖,2014年AAC批准了2014年的ACC奖。 Khachiyan优化终身成就奖,2015年MOS/Siam George B. Dantzig奖和2022年IEEE Control Systems奖。2018年,他与他的合着者约翰·蒂西克利(John Tsitsiklis)分享了2018年,为约翰·冯·诺伊曼(John von Neumann)理论奖提供了研究专着“平行和分布式计算”和“神经动态程序”的贡献。贝特塞卡(Bertsekas)教授于2001年当选为美国国家工程学院的“对优化/控制理论的基础研究,实践和教育的开创性贡献”。
我们和其他动物学习,因为我们不确定世界上存在一些方面。这种确定性是由于最初的无知而产生的,以及我们不完全了解的世界的变化。当发现我们对世界的预测是错误的时,通常可以明显看出。Rescorla-Wagner学习规则指定了一种预测错误会导致学习的方式,它具有极大的影响力,作为Pavlovian调节的特征,并通过与Delta规则相等的方式,在更广泛的学习问题中。在这里,我们在贝叶斯环境中回顾了撤销瓦格纳规则的嵌入,这是关于不确定性与学习之间的联系的精确联系,从而讨论了诸如Kalman过滤器,结构学习及其他等建议的扩展,这些建议集体涵盖了更广泛的不确定性范围,并适应了条件的范围。
