摘要 - 我提出了一种新颖的增强学习方法,用于在模拟环境中训练四足机器人。在动态环境中控制四足机器人的想法非常具有挑战性,我的方法提出了最佳的政策和培训方案,资源有限,并且表现出色。该报告使用RaisimgyMtorch开源库和专有软件Raisim进行模拟Anymal机器人。我的方法以训练时的机器人步行方案的评估为中心,以制定马尔可夫决策过程。使用在Actor-Critic模式下使用的近端策略优化算法来解决结果的MDP,并使用一台台式机收集了数千个状态转换。这项工作还提出了一个控制器方案,该计划在模拟环境中显示了数千个时间步骤。这项工作还为早期研究人员提供了他们喜欢的算法和配置的基础。
铁是一种丰富的化学元素,自古以来就以钢和铸铁的形式用于制造工具、器皿和武器。[1,2] 钢铁目前每年的产量为 1.4 亿吨,是人类文明中最广泛利用的材料之一。[1] 如此高的产量和当前加工技术的高碳足迹,使钢铁成为现代社会减少材料对环境影响的首选材料。[3] 虽然全世界的大部分钢铁生产都用于制造致密的建筑结构元件,但人们也在探索将多孔铁块用于催化、[4] 储能、[5] 组织再生 [6] 和结构应用。[7] 对环境影响较小的轻质结构的需求日益增长,人们对此类多孔金属以及它们对旨在更有效地利用自然资源的非物质化战略的潜在贡献的兴趣日益浓厚。海绵铁是通过将矿石在熔点以下直接还原而获得的,是多孔金属最早的例子之一。[8] 由于其强度相对较低,这种多孔铁在过去被用作制造致密结构的前体。多孔金属的低强度源于众所周知的材料强度和相对密度之间的权衡。[9] 根据 Gibson-Ashby 分析模型的预测,[10] 多孔和胞状结构的强度和刚度与固相相对密度 (φ) 呈幂律关系:P∼φm,其中 P 是关注的属性,m 是缩放指数。重要的是,高度多孔的大型结构(φ<0.20)通常表现出的刚度和承载能力远低于这种简单分析模型的预期水平。 [11] 事实上,实验和计算研究表明,当材料的相对密度接近其渗透阈值时,只有一小部分固相能有效地增加多孔结构的刚度。[12,13] 这是因为在多孔网络结构整体变形过程中存在未受载荷的悬挂元素。[14]
摘要 真实的核反应截面模型是可靠的重离子传输程序的重要组成部分。此类程序用于载人航天探索任务的风险评估以及离子束治疗剂量计算和治疗计划。因此,在本研究中,GSI-ESA-NASA 合作生成了总核反应截面数据集合。该数据库包括实验测量的总核-核反应截面。Tripathi、Kox、Shen、Kox-Shen 和 Hybrid-Kurotama 模型与收集的数据进行了系统比较。给出了有关模型实施的详细信息。指出了文献中的空白,并考虑了哪些模型最适合与太空辐射防护和重离子治疗最相关的系统的现有数据。
我们使用两种互补视觉方式探索视觉增强学习(RL):基于框架的RGB凸轮和基于事件的动态视觉传感器(DVS)。iSTING多模式视觉RL方法在有效提取与任务相关的信息时经常遇到挑战。为了解决这个问题,我们提出了用于视觉RL的分解多模式表示(DMR)框架。它将输入分为三个不同的组成部分:与任务相关的效果(共同功能),RGB特异性噪声和DVS特异性噪声。共同创作表示与RL任务相关的两种模式中的完整信息;这两个噪声组件都受到数据重构损失以避免信息泄漏的约束,与共同创作形成对比,以最大程度地差异。广泛的经验表明,通过明确分开不同信息的类型,我们的方法可实现与最先进的方法相比,实质性改善的政策绩效。
Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>
扩散模型在图像生成中表现出了前所未有的ca。然而,它们从原始训练集中纳入并扩大了数据偏差(例如性别,年龄),从而限制了产生的IMEG的多样性。在本文中,我们在基于图像集的重新函数的指导下,使用增强学习(RL)提出了一种面向多样性的细调方法(RL)。具体而言,所提出的奖励函数(表示为多样性奖励),利用一组生成的信息来评估当前生成分配W.R.T.的覆盖范围。参考分布,由一组无偏见的图像表示。建立在分布差异估计的概率方法的基础上,差异奖励可以有效地用一小部分图像来测量相对分布差距。我们进一步将扩散过程作为多步决策问题(MDP),并通过最大化多样性奖励来应用策略梯度方法来微调扩散模型。在放样后选择任务上验证了奖励,其中根据多样性奖励值选择了最多样化的图像的子集。我们还展示了我们的RL微调框架的有效性,可以通过不同类型的扩散模型(包括班级条件模型和文本条件模型,例如stablediffusion)增强图像生成的多样性。
大规模的基础设施系统对社会欢迎至关重要,其有效管理需要造成各种复杂性的战略前提和干预方法。我们的研究解决了涉及下水道资产的预后和健康管理(PHM)框架内的两个挑战:对跨严重水平的管道降解并制定有效的维护政策。我们采用多州降解模型(MSDM)来代表下水道管道中的随机降解过程,并使用深度加固学习(DRL)来制定维护策略。荷兰下水道网络的案例研究例证了我们的方法论。我们的发现证明了该模型在产生超过启发式方法的智能,节省成本的维护策略方面的效率。它根据管道的年龄来调整其管理策略,选择一种被动方法,用于新的管道,并过渡到较老的策略,以防止失败和降低成本。这项研究高光DRL在优化维护政策方面的潜力。未来的研究将通过合并部分可观察性,探索各种强化学习算法并将这种方法扩展到全面的基础架构管理,以改善模型。