Shi,Shaoshuai等。“运动变压器具有全球意图定位和本地运动的重新构成”。2022。Shi,Shaoshuai等。“ MTR ++:具有对称场景建模和指导意图查询的多代理运动预测。”2023。
关于Holcim Holcim是创新和可持续建筑解决方案的全球领导者,净销售额在2023年为270亿瑞士法郎。在我们为人们和地球建立进步的目的的驱动下,我们的63,448名员工正在执行脱碳化建筑物的使命,同时改善所有人的生活水平。,我们赋予所有地区客户的客户能力以更少的速度建造,并具有广泛的低碳和圆形解决方案,从Ecopact和Ecoplanet到我们的循环技术平台Ecocycle®。通过创新的系统,从高架屋顶到PRB隔热材料,Holcim使建筑物在使用中更可持续,推动能源效率和绿色改造。以我们战略的核心可持续性,我们正在成为由SBTI验证的1.5°C目标的净零公司。
大规模的基础设施系统对社会欢迎至关重要,其有效管理需要造成各种复杂性的战略前提和干预方法。我们的研究解决了涉及下水道资产的预后和健康管理(PHM)框架内的两个挑战:对跨严重水平的管道降解并制定有效的维护政策。我们采用多州降解模型(MSDM)来代表下水道管道中的随机降解过程,并使用深度加固学习(DRL)来制定维护策略。荷兰下水道网络的案例研究例证了我们的方法论。我们的发现证明了该模型在产生超过启发式方法的智能,节省成本的维护策略方面的效率。它根据管道的年龄来调整其管理策略,选择一种被动方法,用于新的管道,并过渡到较老的策略,以防止失败和降低成本。这项研究高光DRL在优化维护政策方面的潜力。未来的研究将通过合并部分可观察性,探索各种强化学习算法并将这种方法扩展到全面的基础架构管理,以改善模型。
Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>
想象力,基于模型的推理和决策的神经基础对神经科学产生了很大的兴趣[5-7];在认知水平上,在动物和人类学习中已经假设并证明了模型学习和心理模拟[8-11]。其在基于人工模型的代理中的成功部署迄今已仅限于可用的确切过渡模型[12]或模型易于学习的域中的设置,例如符号环境或低维系统[13 - 16]。在代理无法使用模拟器的复杂域中,最近的成功由无模型方法主导[2,17]。在此类域中,采用标准计划方法的基于模型的代理的性能通常会遭受功能近似作用的模型错误[18,19]。这些错误在计划过程中复合了,导致过度优势和剂性能差。当前没有计划
在Marwan Hamze博士的监督下,该项目是在东京科学大学的吉田教授实验室的国际四个月实习的一部分。主要目的是为加强机器人手臂控制学习的应用的应用做出贡献。我的工作包括在模拟和真实环境中为机器人组开发和实施控制算法。强化学习使避免复杂的运动学模型成为可能,从而为机器人提供通过与环境直接互动来优化其行为的能力。我将精力集中在优化XARM6机器人手臂控制上,并从科学文献中适应方法。我在模拟中首先测试了这些算法,然后将它们应用于真实环境以评估其稳健性。我的目标是获得加强对人形机器人控制的技能,以控制川崎的Kaleido机器人,尺寸为1.80 m,重80 kg。这个项目使我能够增强机器人技术和人工智能方面的技术技能,同时促进该扩展领域应用的研究。
扩散模型在图像生成中表现出了前所未有的ca。然而,它们从原始训练集中纳入并扩大了数据偏差(例如性别,年龄),从而限制了产生的IMEG的多样性。在本文中,我们在基于图像集的重新函数的指导下,使用增强学习(RL)提出了一种面向多样性的细调方法(RL)。具体而言,所提出的奖励函数(表示为多样性奖励),利用一组生成的信息来评估当前生成分配W.R.T.的覆盖范围。参考分布,由一组无偏见的图像表示。建立在分布差异估计的概率方法的基础上,差异奖励可以有效地用一小部分图像来测量相对分布差距。我们进一步将扩散过程作为多步决策问题(MDP),并通过最大化多样性奖励来应用策略梯度方法来微调扩散模型。在放样后选择任务上验证了奖励,其中根据多样性奖励值选择了最多样化的图像的子集。我们还展示了我们的RL微调框架的有效性,可以通过不同类型的扩散模型(包括班级条件模型和文本条件模型,例如stablediffusion)增强图像生成的多样性。