Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>Harrison Lee,Samrat Phatale,Hassan Mansoor,Thomas Mesnard,Johan Ferret,Kellie Lu,Colton Bishop,Ethan Hall,VictorCărbune,Abhinav Rastogi,Sushant Prakash Prakash ICML 2024 div>
关于 CEEW 能源、环境和水资源委员会 (CEEW) 是亚洲领先的非营利政策研究机构之一。该委员会使用数据、综合分析和战略外展来解释并改变资源的使用、再利用和滥用。它以其高质量研究的独立性而自豪,与公共和私人机构建立伙伴关系,并与更广泛的公众互动。2021 年,CEEW 再次在 2020 年全球智库指数报告中的十个类别中广泛亮相。该委员会还一直被评为世界顶级气候变化智库之一。www.ceew.in | @CEEWIndia
我们使用两种互补视觉方式探索视觉增强学习(RL):基于框架的RGB凸轮和基于事件的动态视觉传感器(DVS)。iSTING多模式视觉RL方法在有效提取与任务相关的信息时经常遇到挑战。为了解决这个问题,我们提出了用于视觉RL的分解多模式表示(DMR)框架。它将输入分为三个不同的组成部分:与任务相关的效果(共同功能),RGB特异性噪声和DVS特异性噪声。共同创作表示与RL任务相关的两种模式中的完整信息;这两个噪声组件都受到数据重构损失以避免信息泄漏的约束,与共同创作形成对比,以最大程度地差异。广泛的经验表明,通过明确分开不同信息的类型,我们的方法可实现与最先进的方法相比,实质性改善的政策绩效。
扩散模型在图像生成中表现出了前所未有的ca。然而,它们从原始训练集中纳入并扩大了数据偏差(例如性别,年龄),从而限制了产生的IMEG的多样性。在本文中,我们在基于图像集的重新函数的指导下,使用增强学习(RL)提出了一种面向多样性的细调方法(RL)。具体而言,所提出的奖励函数(表示为多样性奖励),利用一组生成的信息来评估当前生成分配W.R.T.的覆盖范围。参考分布,由一组无偏见的图像表示。建立在分布差异估计的概率方法的基础上,差异奖励可以有效地用一小部分图像来测量相对分布差距。我们进一步将扩散过程作为多步决策问题(MDP),并通过最大化多样性奖励来应用策略梯度方法来微调扩散模型。在放样后选择任务上验证了奖励,其中根据多样性奖励值选择了最多样化的图像的子集。我们还展示了我们的RL微调框架的有效性,可以通过不同类型的扩散模型(包括班级条件模型和文本条件模型,例如stablediffusion)增强图像生成的多样性。
摘要 - 深处增强学习(RL)已经获得了自动在现代芯片设计中生成位置的人口。但是,这些RL模型产生的平面图的视觉样式与手动布局的样式大不相同,因为RL垫片通常只采用诸如Wirelength和Routing Expestion之类的指标作为增强学习的奖励,而忽略了人类专家的复杂且细腻的布局经验。在本文中,我们提出了一个安置得分手,以评估布局的质量,并将异常检测应用于地板计划。此外,我们将该得分手的输出添加为加强安置过程的奖励的一部分。ISPD 2005基准的实验结果表明,我们提出的放置质量得分手可以根据人类工艺风格有效地评估布局,并且将此得分手添加到增强式学习奖励中,有助于与以前的电路设计相比,用更短的线长度生成较短的线长度。索引术语 - 地板,加固倾斜,异常检测,放置得分手
相机曝光控制是通过控制曝光时间,增益和光圈来调整展示水平的任务,以达到给定场景的所需亮度和图像质量水平。调整较差的暴露参数导致暴露过度,暴露不足,模糊或嘈杂的图像,这可能会导致基于图像的应用程序中的性能降解,并且在最坏的情况下甚至是威胁生命的事故。因此,找到适当的相机暴露是确保计算机VI- sion应用功能的第一步,例如对象检测[5,16],语义分割[9,17],深度估计[10,26]和视觉传感器[1,13]。相机外观控制中有几个基本要求。必须保证快速收敛以在动态降低的情况下保持适当的暴露水平。此外,曝光控制环是相机系统中最低的循环之一。因此,必须考虑轻巧的算法设计用于车载级操作。最后,不应牺牲融合图像的质量以满足要求。此外,同时控制的参数数的数量也很重要,因为它会影响收敛时间和收敛图像的最终质量。单一控制方法[14,18,20]以一种方式控制暴露参数,以达到所需的暴露水平,而不是控制暴露参数。但是,收敛的参数通常不是最佳的,例如[长时间曝光时间,低增益]和[短曝光时间,高增益]对。结果,该值导致不良图像伪像,例如由于长时间的暴露时间或由于高增益而引起的严重噪声而导致运动模糊。关节曝光参数控制[7,8,8,21,23,24]通常需要在广泛的搜索空间中进行多个搜索步骤,以找到最佳组合。结果,它们会引起闪烁效果和缓慢的收敛速度。此外,由于其优化算法[7,8],图像评估指标[7,8,20,21]和GPU推论,因此需要高级计算复杂性[23]。在本文中,我们提出了一种新的联合暴露参数控制方法,该方法利用了增强学习来实现即时收敛和实时处理。所提出的框架由四个贡献组成:•简化的训练场,以模拟现实世界的di-verse和动态照明变化。•闪烁和图像属性感知奖励设计,以及用于实时处理的轻巧和直观的状态设计。•静态的动态照明课程学习,以提高代理的暴露能力。•域随机技术减轻训练场的限制并在野外实现无缝的一般性,而无需额外的训练。
学习表征捕获对世界的非常基本的理解是机器学习的关键挑战。隐藏在数据中的解释因素的层次结构是如此一般的表示,并且可以通过分层VAE实现。然而,培训层次的VAE总是遭受“后塌陷”的苦难,其中数据信息很难传播到更高级别的潜在变量,因此导致层次结构不良。为了解决这个问题,我们首先是从信息理论的角度来减轻后层崩溃的现有方法的缺点,然后突出了正规化的必要性,即在维持不同级别之间的依赖性的同时,将数据信息明确传播到高级潜在变量。这自然会导致提出高级潜在表示作为顺序决策过程的推断,这可能受益于应用强化学习(RL)。将RL的目标与正规化的目标保持一致,我们首先引入了一条跳过的途径,以获取奖励,以评估潜在的潜在表示的信息内容,然后基于它的Q-VALUE函数可能具有正规化的一致优化方向。最后,策略梯度是典型的RL方法之一,用于训练层次VAE,而无需引入梯度估计器。1。简介实验结果坚定地支持我们的分析,并证明我们提出的方法有效地减轻了后塌陷问题,学习了信息的层次结构,获得了可解释的潜在表示,并且在下游任务中明显优于其他基于层次的VAE方法。
在Marwan Hamze博士的监督下,该项目是在东京科学大学的吉田教授实验室的国际四个月实习的一部分。主要目的是为加强机器人手臂控制学习的应用的应用做出贡献。我的工作包括在模拟和真实环境中为机器人组开发和实施控制算法。强化学习使避免复杂的运动学模型成为可能,从而为机器人提供通过与环境直接互动来优化其行为的能力。我将精力集中在优化XARM6机器人手臂控制上,并从科学文献中适应方法。我在模拟中首先测试了这些算法,然后将它们应用于真实环境以评估其稳健性。我的目标是获得加强对人形机器人控制的技能,以控制川崎的Kaleido机器人,尺寸为1.80 m,重80 kg。这个项目使我能够增强机器人技术和人工智能方面的技术技能,同时促进该扩展领域应用的研究。
1 Lancieri 是苏黎世联邦理工学院法学与经济学中心的博士后研究员,也是芝加哥大学布斯斯蒂格勒中心的研究员;Zingales 是罗伯特·C·麦考马克杰出创业服务教授,也是芝加哥大学布斯斯蒂格勒中心的教职主任;Posner 是芝加哥大学法学院的 Kirkland & Ellis 杰出教授。他在本文的早期草稿发布后加入了司法部;该版本和最终版本不一定反映司法部的观点。作者要感谢 Bill Kovacic、Tina Miller、Marc Winerman、Andrew Gavil、Daniel Crane、Fiona Scott Morton、Matt Stoller、Stefan Bechtold、Amit Zac、Gerard Hertig、Inge Graef、Jens Prufer、Giorgio Monti、Anna Tzanaki、Jens-Uwe Frank、Andrew Vivian、Frederic Marty、Vardges Levonyan 以及由《反垄断法杂志》、蒂尔堡法学院、曼海姆大学、《全球竞争评论》、Cote d'Azur 大学、CRESSE 和 ASCOLA 组织的研讨会和会议小组的参与者对本文不同阶段的评论。我们还要感谢 Lee Epstein 分享她的商业友好度评分数据;感谢 Simcha Barkai 分享他的司法部反垄断诉讼数据;感谢 Erik Peinert 与我们分享他在里根图书馆中发现的几份备忘录;感谢 Dino Christenson 分享法庭之友陈述数据。最后,我们感谢 Sima Biondi 和 Grant Strobl 提供的出色研究协助。