扩散模型在图像生成中表现出了前所未有的ca。然而,它们从原始训练集中纳入并扩大了数据偏差(例如性别,年龄),从而限制了产生的IMEG的多样性。在本文中,我们在基于图像集的重新函数的指导下,使用增强学习(RL)提出了一种面向多样性的细调方法(RL)。具体而言,所提出的奖励函数(表示为多样性奖励),利用一组生成的信息来评估当前生成分配W.R.T.的覆盖范围。参考分布,由一组无偏见的图像表示。建立在分布差异估计的概率方法的基础上,差异奖励可以有效地用一小部分图像来测量相对分布差距。我们进一步将扩散过程作为多步决策问题(MDP),并通过最大化多样性奖励来应用策略梯度方法来微调扩散模型。在放样后选择任务上验证了奖励,其中根据多样性奖励值选择了最多样化的图像的子集。我们还展示了我们的RL微调框架的有效性,可以通过不同类型的扩散模型(包括班级条件模型和文本条件模型,例如stablediffusion)增强图像生成的多样性。
Shi,Shaoshuai等。“运动变压器具有全球意图定位和本地运动的重新构成”。2022。Shi,Shaoshuai等。“ MTR ++:具有对称场景建模和指导意图查询的多代理运动预测。”2023。
Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>
大规模的基础设施系统对社会欢迎至关重要,其有效管理需要造成各种复杂性的战略前提和干预方法。我们的研究解决了涉及下水道资产的预后和健康管理(PHM)框架内的两个挑战:对跨严重水平的管道降解并制定有效的维护政策。我们采用多州降解模型(MSDM)来代表下水道管道中的随机降解过程,并使用深度加固学习(DRL)来制定维护策略。荷兰下水道网络的案例研究例证了我们的方法论。我们的发现证明了该模型在产生超过启发式方法的智能,节省成本的维护策略方面的效率。它根据管道的年龄来调整其管理策略,选择一种被动方法,用于新的管道,并过渡到较老的策略,以防止失败和降低成本。这项研究高光DRL在优化维护政策方面的潜力。未来的研究将通过合并部分可观察性,探索各种强化学习算法并将这种方法扩展到全面的基础架构管理,以改善模型。
两种常见的顺序决策方法是人工智能规划 (AIP) 和强化学习 (RL)。每种方法都有优点和缺点。AIP 具有可解释性,易于与符号知识集成,并且通常很高效,但需要预先指定逻辑域,并且对噪声敏感;RL 只需要指定奖励,并且对噪声具有鲁棒性,但样本效率低下,不易获得外部知识。我们提出了一种将高级规划与 RL 相结合的综合方法,保留了可解释性、迁移和效率,同时允许对低级规划操作进行鲁棒学习。我们的方法通过在 AI 规划问题的状态转换模型和马尔可夫决策过程 (MDP) 的抽象状态转换系统之间建立对应关系,从 AIP 运算符定义分层强化学习 (HRL) 中的选项。通过添加内在奖励来学习选项,以鼓励 MDP 和 AIP 转换模型之间的一致性。我们通过比较 MiniGrid 和 N 室环境中 RL 和 HRL 算法的性能来展示我们的集成方法的优势,展示了我们的方法相对于现有方法的优势。
摘要 - 使用无人驾驶汽车(无人机)的搜索和救援应用也称为无人机,由于其对生态系统和人员的影响很大,因此正在成为行业和学术界感兴趣的研究主题。探索灾区是搜救和救援的关键要素,以确定需要立即援助或具有较高危险概率的区域。本文旨在使用无人机对灾区的覆盖范围优化。我们将重点放在研究的情况下。所提出的方法由两个主要部分组成:i)暹罗网络用于识别卫星图像中的浮游建筑物,ii)ii)感兴趣的点被转换为合适的迷宫环境,随后,任何增强学习(RL)结构用于区域覆盖范围以进行区域覆盖范围。在这里,RL体系结构的目标是通过优化时间和以前访问的区域来确保无人机覆盖完整的环境。实验以显示当前方法的好处和挑战。
实施,实验和结果38 5.1。软件实施38 5.1.1 TensorFlow 38 5.1.2 Pendulum驱动器38 5.1.3 Pendulum Environment 38 5.1.4 Raspberry Pi Software 39 5.1.5深钢筋学习39 5.2。硬件实现39 5.2.1带电机驱动器的Raspberry Pi 39 5.2.2带电机旋转编码器的Raspberry Pi 40 5.2.3 Raspberry pi搭配摆旋转旋转编码器40 5.3。实验实现和设置40 5.3.1环境40 5.3.2参数41 5.4。仿真结果42 5.4.1应用突然变化44
重新评估期中考试:学生将在考试期间访问他们的期中考试。担心如何在中期考试中有特定问题的学生可以在接受标记考试之日的两个星期内通过电子邮件向教练提交请求。请求应指定要重新评估哪个问题,(2)该请求的基本原理,以及(3)提出的标记。重要的是,一旦提交了重新评估请求,就可以根据教师的酌处权来调整标记。不允许学生与他们一起参加期中考试,也不可以为他们拍照,因此,如果令人担忧,建议学生在考试期间做笔记。TA无权在中期考试中进行权衡,这是教练只能做的事情。一旦重新评估问题,也可以注意标记。
相机曝光控制是通过控制曝光时间,增益和光圈来调整展示水平的任务,以达到给定场景的所需亮度和图像质量水平。调整较差的暴露参数导致暴露过度,暴露不足,模糊或嘈杂的图像,这可能会导致基于图像的应用程序中的性能降解,并且在最坏的情况下甚至是威胁生命的事故。因此,找到适当的相机暴露是确保计算机VI- sion应用功能的第一步,例如对象检测[5,16],语义分割[9,17],深度估计[10,26]和视觉传感器[1,13]。相机外观控制中有几个基本要求。必须保证快速收敛以在动态降低的情况下保持适当的暴露水平。此外,曝光控制环是相机系统中最低的循环之一。因此,必须考虑轻巧的算法设计用于车载级操作。最后,不应牺牲融合图像的质量以满足要求。此外,同时控制的参数数的数量也很重要,因为它会影响收敛时间和收敛图像的最终质量。单一控制方法[14,18,20]以一种方式控制暴露参数,以达到所需的暴露水平,而不是控制暴露参数。但是,收敛的参数通常不是最佳的,例如[长时间曝光时间,低增益]和[短曝光时间,高增益]对。结果,该值导致不良图像伪像,例如由于长时间的暴露时间或由于高增益而引起的严重噪声而导致运动模糊。关节曝光参数控制[7,8,8,21,23,24]通常需要在广泛的搜索空间中进行多个搜索步骤,以找到最佳组合。结果,它们会引起闪烁效果和缓慢的收敛速度。此外,由于其优化算法[7,8],图像评估指标[7,8,20,21]和GPU推论,因此需要高级计算复杂性[23]。在本文中,我们提出了一种新的联合暴露参数控制方法,该方法利用了增强学习来实现即时收敛和实时处理。所提出的框架由四个贡献组成:•简化的训练场,以模拟现实世界的di-verse和动态照明变化。•闪烁和图像属性感知奖励设计,以及用于实时处理的轻巧和直观的状态设计。•静态的动态照明课程学习,以提高代理的暴露能力。•域随机技术减轻训练场的限制并在野外实现无缝的一般性,而无需额外的训练。