Rein

File

1900年1月1日机构名称:

基于深度强化学习的调度...

电气和电子工程师协会 › iel7 作者 VHL Lopes · 2022 · 被引用 1 — 作者 VHL Lopes · 2022 被引用 1 与信道建模和仿真相关，特别关注... 采用的块结构可以表示标准的多帧组织。 17 页

查看详细

File

1900年1月1日机构名称:

通过打破...

重置（SR-SAC和SR-SPR）●获得最先进的无模型效率●分析重播比率缩放的要求●研究此范式背后的权衡取舍

查看详细

深度学习计算机视觉和对Helisa Dham场景的认可。华为的“诺亚方舟”实验室。英国。 I 中的课程

File

2024年1月31日机构名称:

深度学习计算机视觉和对Helisa Dham场景的认可。华为的“诺亚方舟”实验室。英国。 I 中的课程

深度学习是一种自动学习方法，它基于大量示例的学习模式。 div>是一种复杂问题的特别有趣的方法，为之，数据（经验）广泛可用，但是制定分析解决方案是不可行的。 div>在本课程中，我们将探讨深度智能和计算机视觉的基本概念。 div>我们将通过理论会议和实践示例来展示如何根据任务（对象检测，实例分割，对象之间的关系预测）和数据模式（图像，视频，3D）创建和训练深层智力模型。 div>该课程将以一些高级问题的介绍以及有关最近趋势的讨论进行介绍。 div>

查看详细

File

1900年1月1日机构名称:

正规化参数不确定性，用于改善加强学习的概括

为了在现实世界中部署强化学习（RL）代理，它们必须能够推广到看不见的环境。但是，RL在分布外的概括方面挣扎，通常是由于过度拟合培训环境的细节。尽管可以应用监督学习的正则化技术来避免过度插入，但超级学习和RL之间的差异限制了其应用。为了解决这个问题，我们提出了RL的信噪比调节的参数不确定性网络（SNR PUN）。我们将SNR作为正规化网络的参数定向的新量度，并提供了正式分析，解释了SNR正则为什么对RL效果很好。我们证明了我们提出的方法在几个模拟环境中概括的有效性；在一个物理系统中，显示了使用SNR PUN将RL应用于现实世界应用程序的可能性。

查看详细

File

1900年1月1日机构名称:

将模仿和加强学习结合起来，以确保安全...

Shi，Shaoshuai等。“运动变压器具有全球意图定位和本地运动的重新构成”。2022。Shi，Shaoshuai等。“ MTR ++：具有对称场景建模和指导意图查询的多代理运动预测。”2023。

查看详细

File

1900年1月1日机构名称:

dmr：视觉增强学习中的框架和事件融合的分解多模式表示

我们使用两种互补视觉方式探索视觉增强学习（RL）：基于框架的RGB凸轮和基于事件的动态视觉传感器（DVS）。iSTING多模式视觉RL方法在有效提取与任务相关的信息时经常遇到挑战。为了解决这个问题，我们提出了用于视觉RL的分解多模式表示（DMR）框架。它将输入分为三个不同的组成部分：与任务相关的效果（共同功能），RGB特异性噪声和DVS特异性噪声。共同创作表示与RL任务相关的两种模式中的完整信息；这两个噪声组件都受到数据重构损失以避免信息泄漏的约束，与共同创作形成对比，以最大程度地差异。广泛的经验表明，通过明确分开不同信息的类型，我们的方法可实现与最先进的方法相比，实质性改善的政策绩效。

查看详细

File

1900年1月1日机构名称:

学习通过增强学习来控制相机曝光

相机曝光控制是通过控制曝光时间，增益和光圈来调整展示水平的任务，以达到给定场景的所需亮度和图像质量水平。调整较差的暴露参数导致暴露过度，暴露不足，模糊或嘈杂的图像，这可能会导致基于图像的应用程序中的性能降解，并且在最坏的情况下甚至是威胁生命的事故。因此，找到适当的相机暴露是确保计算机VI- sion应用功能的第一步，例如对象检测[5，16]，语义分割[9，17]，深度估计[10，26]和视觉传感器[1，13]。相机外观控制中有几个基本要求。必须保证快速收敛以在动态降低的情况下保持适当的暴露水平。此外，曝光控制环是相机系统中最低的循环之一。因此，必须考虑轻巧的算法设计用于车载级操作。最后，不应牺牲融合图像的质量以满足要求。此外，同时控制的参数数的数量也很重要，因为它会影响收敛时间和收敛图像的最终质量。单一控制方法[14，18，20]以一种方式控制暴露参数，以达到所需的暴露水平，而不是控制暴露参数。但是，收敛的参数通常不是最佳的，例如[长时间曝光时间，低增益]和[短曝光时间，高增益]对。结果，该值导致不良图像伪像，例如由于长时间的暴露时间或由于高增益而引起的严重噪声而导致运动模糊。关节曝光参数控制[7，8，8，21，23，24]通常需要在广泛的搜索空间中进行多个搜索步骤，以找到最佳组合。结果，它们会引起闪烁效果和缓慢的收敛速度。此外，由于其优化算法[7，8]，图像评估指标[7，8，20，21]和GPU推论，因此需要高级计算复杂性[23]。在本文中，我们提出了一种新的联合暴露参数控制方法，该方法利用了增强学习来实现即时收敛和实时处理。所提出的框架由四个贡献组成：•简化的训练场，以模拟现实世界的di-verse和动态照明变化。•闪烁和图像属性感知奖励设计，以及用于实时处理的轻巧和直观的状态设计。•静态的动态照明课程学习，以提高代理的暴露能力。•域随机技术减轻训练场的限制并在野外实现无缝的一般性，而无需额外的训练。

查看详细

File

1900年1月1日机构名称:

具有人工智能规划模型的分层强化学习

两种常见的顺序决策方法是人工智能规划 (AIP) 和强化学习 (RL)。每种方法都有优点和缺点。AIP 具有可解释性，易于与符号知识集成，并且通常很高效，但需要预先指定逻辑域，并且对噪声敏感；RL 只需要指定奖励，并且对噪声具有鲁棒性，但样本效率低下，不易获得外部知识。我们提出了一种将高级规划与 RL 相结合的综合方法，保留了可解释性、迁移和效率，同时允许对低级规划操作进行鲁棒学习。我们的方法通过在 AI 规划问题的状态转换模型和马尔可夫决策过程 (MDP) 的抽象状态转换系统之间建立对应关系，从 AIP 运算符定义分层强化学习 (HRL) 中的选项。通过添加内在奖励来学习选项，以鼓励 MDP 和 AIP 转换模型之间的一致性。我们通过比较 MiniGrid 和 N 室环境中 RL 和 HRL 算法的性能来展示我们的集成方法的优势，展示了我们的方法相对于现有方法的优势。

查看详细

File

1900年1月1日机构名称:

rlaif vs. rlhf：通过AI反馈从人类反馈中缩放加强

Harrison Lee，Samrat Phatale，Hassan Mansoor，Thomas Mesnard，Johan Ferret，Kellie Lu，Colton Bishop，Ethan Hall，VictorCărbune，Abhinav Rastogi，Sushant Prakash Prakash ICML 2024 div>Harrison Lee，Samrat Phatale，Hassan Mansoor，Thomas Mesnard，Johan Ferret，Kellie Lu，Colton Bishop，Ethan Hall，VictorCărbune，Abhinav Rastogi，Sushant Prakash Prakash ICML 2024 div>

查看详细

File

1900年1月1日机构名称:

训练扩散模型通过增强学习

扩散模型在图像生成中表现出了前所未有的ca。然而，它们从原始训练集中纳入并扩大了数据偏差（例如性别，年龄），从而限制了产生的IMEG的多样性。在本文中，我们在基于图像集的重新函数的指导下，使用增强学习（RL）提出了一种面向多样性的细调方法（RL）。具体而言，所提出的奖励函数（表示为多样性奖励），利用一组生成的信息来评估当前生成分配W.R.T.的覆盖范围。参考分布，由一组无偏见的图像表示。建立在分布差异估计的概率方法的基础上，差异奖励可以有效地用一小部分图像来测量相对分布差距。我们进一步将扩散过程作为多步决策问题（MDP），并通过最大化多样性奖励来应用策略梯度方法来微调扩散模型。在放样后选择任务上验证了奖励，其中根据多样性奖励值选择了最多样化的图像的子集。我们还展示了我们的RL微调框架的有效性，可以通过不同类型的扩散模型（包括班级条件模型和文本条件模型，例如stablediffusion）增强图像生成的多样性。

查看详细

XiaoMi-AI文件搜索系统

Rein

基于深度强化学习的调度...

通过打破...

深度学习计算机视觉和对Helisa Dham场景的认可。华为的“诺亚方舟”实验室。英国。 I 中的课程

正规化参数不确定性，用于改善加强学习的概括

将模仿和加强学习结合起来，以确保安全...

dmr：视觉增强学习中的框架和事件融合的分解多模式表示

学习通过增强学习来控制相机曝光

具有人工智能规划模型的分层强化学习

rlaif vs. rlhf：通过AI反馈从人类反馈中缩放加强

训练扩散模型通过增强学习

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI