摘要 - 在某些情况下,任何自主控制器都会不安全。定量确定这些不安全情况何时即将发生的能力对于及时的人类监督,例如货运运输应用至关重要。在这项工作中,我们证明了代理人情况的真正批判性可以牢固地定义为鉴于某些随机行动的奖励的平均减少。可以将实时计算的临界指标(即,不实际模拟随机动作的效果)与真正的临界性进行比较,我们展示了如何利用这些代理指标来产生安全边际,这直接将潜在不正确的行动与预期的损失联系起来,以使其在整体绩效中造成预期损失。我们在ATARI环境中评估了从APE-X和A3C学习的策略的方法,并证明了随着代理的接近故障状态,安全利润如何降低。将安全利润集成到监视部署的代理的程序中,可以实时识别潜在的灾难性情况。
Shukla,Y.,Thierauf C.,Hosseini R.,Tatiya G.和Sinapov J.(2022)急性:自动课程从简单到复杂环境的自动转移到国际自治与多种系统会议论文集(AAMAS),在线,2022年。
最近的研究表明,变压器可以通过模仿现有的RL算法来执行内在的增强学习(RL),从而使样本有效的适应能够适应无参数更新而无需看到的任务。但是,这些模型还继承了它们模仿的RL算法的次优行为。由于这些算法采用的逐渐更新规则,因此出现了此问题。基于模型的计划通过允许模拟在采取行动之前模拟潜在结果,提供了一种额外的机制来偏离次优行为,从而为这种限制提供了有希望的解决方案。我们没有学习Sepa-Rate Dynamics模型,而是提出了基于信用的RL框架(DICP)的蒸馏(DICP),在其中,变压器同时学习环境动力学并改善策略,并在内部进行改善。我们评估了跨多种离散和连续环境(包括暗室变体和元世界)的DICP。我们的结果表明,与基准相比,DICP可以达到最先进的性能,同时需要的环境相互作用要少得多,基本线包括无模型的对应物和现有的Meta-RL方法。该代码可在https://github.com/jaehyhyeon-son/dicp上获得。
摘要 - 对建筑能源(包括HVAC和电池存储系统)的自治控制有可能优化运营并实现目标,例如成本最小化。现有方法要么需要建筑物的明确数学模型,要么诉诸于基于规则的控件(RBC),这可能是次优的。无模型的加固学习(RL)是一种克服这些局限性的有前途的方法 - 但是,在学习功能策略之前,通常需要与真实环境进行大量互动。在这项工作中,我们研究了“动作掩盖”,这是一种提高RL算法学习效率的技术,同时尊重学习阶段的安全规则。我们的解决方案与基线规则的控制器相比,成本降低了6%,并且表现优于流行的转移学习策略。这表明无模型的RL方法对于该领域的问题是可行的且实用的。
洛杉矶是盖蒂保护研究所的所在地,对地震的破坏力非常熟悉。在过去的五十年中,1971 年和 1994 年发生的两次大地震导致该市人员伤亡和大面积破坏。盖蒂中心是盖蒂保护研究所及其姊妹项目的所在地,于 1994 年正在建设中;当年发生的 6.7 级地震暴露了现场已经竖立的钢接头的脆弱性,并进行了加固以降低该中心未来遭受地震破坏的可能性。在那次地震发生前的几年,盖蒂保护研究所实际上已经开始了一项抗震加固研究计划,重点是建筑文化遗产。1990 年,盖蒂保护研究所启动了两个项目,研究和开发为地震地区具有历史和文化意义的建筑提供抗震稳定的方法。第一个项目是盖蒂抗震土坯项目 (GSAP),该项目研究了现有土制结构加固方法的替代方案,并开发了以合理成本提供抗震保护的方法,同时大大保留了历史土坯的真实性。第二个项目在前南斯拉夫的马其顿共和国进行,重点研究了用石头和砖块建造的拜占庭教堂的抗震加固。本期《保护展望》的专题文章介绍了该研究所目前的抗震加固项目 (SRP),该项目源于 GSAP。SRP 以 GCI 的专业知识和多年的研究为基础,为土制建筑遗产的抗震加固制定方法和标准。该项目目前在秘鲁开展,得到了 GCI 理事会的支持和遗产保护之友的协助,是秘鲁天主教大学科学与工程学院前院长 Daniel Torrealva 和负责管理 SRP 的 GCI 高级项目专家 Claudia Cancino 撰写的文章的主题。该项目与秘鲁文化部和秘鲁天主教大学合作开展,正在开发低技术、经济高效的抗震加固技术,并就易于实施的维护计划提出建议,这些计划可以共同提高土制建筑的抗震性能,同时保护历史建筑。Zeynep Gül Ünal 教授是 ICOMOS 风险准备委员会和土耳其 GEA 城市搜救队的成员,他研究了可以更好地保护历史建筑免受地震破坏的政策和立法变化。在他们的文章中,保护建筑师 Stephen Kelley 和 Rohit Jigyasu 以 1987 年具有里程碑意义的盖蒂出版物《两次地震之间:地震带中的文化财产》(作者:Sir Bernard Feilden)为起点,研究了接下来几十年取得的进展以及需要做更多工作的领域。在他的文章中,土木工程师兼教授 Paulo B. Lourenço 探讨了与降低历史建筑对地震活动的脆弱性相关的研究进展。最后,本期圆桌会议包括 Androniki Miltiadou-Fezans、Claudio Modena 和 John Ochsendorf,他们都是建筑文化遗产领域经验丰富的工程师;他们一起努力解决与建筑遗产保护工程师的角色、职责和培训相关的问题。总而言之,这份 GCI 简报概述了在减少地震活动对建筑遗产造成的风险方面取得的一些进展,同时也指明了我们需要前进的一些方向。
本文通过将因果发现与增强学习整合到供应链中的产生供应风险的新颖方法是导致供应链中交付风险的归因。随着供应链的越来越复杂,根本原因分析的传统方法难以捕获各种因素之间的复杂相互关系,通常会导致虚假的相关性和次优决策。我们的方法通过利用因果发现来确定操作变量之间的真正因果关系,并加强学习来迭代地完善因果图。此方法可以准确识别后期交付的关键驱动因素,例如运输模式和交货状态,并提供可行的见解以优化供应链性能。我们将方法应用于现实世界中的供应链数据集,证明了其在揭示交付延迟的根本原因方面的有效性,并提供了缓解这些风险的策略。这些发现对提高运营效率,客户满意度和供应链中的整体盈利能力具有重大意义。
假设您有…•数据集d = {(x i,y i)} i = 1 n和n很小(即几次设置)•一个非常大的(数十亿个参数)预训练的语言模型,有两种“学习”
( Source: [12] )......................................................................................................................... 7
摘要。基于蒙特 - 卡洛算法的效率很大程度上依赖于随机搜索启发式,该搜索通常是使用域知识手工制作的。为了提高这些方法的通用性,新算法(例如嵌套推出策略适应(NRPA))已使用在搜索过程中收集的数据在线培训的手工制作的启发式方法代替了手工制作的启发式方法。尽管策略模型的表现力有限,但NRPA还是能够超过传统的蒙特卡洛算法(即不学习)在包括Morpion Solitaire在内的各种游戏中。在本文中,我们将蒙特卡罗搜索与基于事先训练的神经网络的更加紧迫的非线性策略模型相结合。然后,我们演示了如何使用此网络以通过Morpion Solitaire游戏的这种新技术获得最先进的结果。我们还使用NeuralNRPA作为专家来培训专家迭代的模型。