摘要 - 间歇性更新能源资源的大规模整合引入了对电力系统供应方面的不确定性和波动性的增加,从而弥补了系统的操作和控制。最近,数据驱动的AP-PARACHES,尤其是加强学习(RL)在解决电力系统中的复杂控制挑战方面表现出了巨大的希望,因为RL可以从交互式反馈中学习而无需对系统模型的先验知识。然而,无模型RL方法的训练过程在很大程度上依赖于探索的随机决策,这可能会导致“不良”决策,违反了关键的安全限制并导致灾难性的控制结果。由于RL方法无法理论上确保电力系统中的决策安全,因此直接在现实世界中部署传统的RL算法是无法接受的。因此,近年来RL应用中的安全问题(称为安全RL)引起了广泛关注,导致了许多重要的发展。本文对最先进的安全RL技术进行了全面审查,并讨论了如何将这些技术应用于电力系统控制问题,例如频率调节,电压控制和能量管理。然后,我们就关键挑战和未来的研究方向提出了与融合和最佳,培训效率,普遍性和现实世界部署有关的讨论。
(DEAMS),意大利Trieste摘要循环经济(CE)原理在反向物流(RL)过程中的应用涉及恢复,回收,再利用和再制造从消费者到生产商返回的材料。本文献综述评估了制造业,技术,供应链(SC)结构,客户的喜好和政策制定者是否会影响循环RL的扩散,从而强调了公司采用的策略。结果显示了不同行业中不同级别的循环RL实施。技术是一种推动力,但也是一个障碍,因为它需要大量的财务资源和熟练的劳动力。所有SC利益相关者的参与被证明是成功实施循环RL的关键因素,尽管成功的可能性显着取决于生产者是发起人。决策者在指导循环RL项目的商业投资方面也发挥了关键作用。本文总结了关于CE和RL的文献,对分析维度的研究很少一起研究,从而为研究人员,公司和公共决策者提供了影响RL在循环过程中管理RL的最关键因素的概述。有争议的发现,未来的问题和有前途的未来研究线。关键字:反向物流,循环经济,供应链。
为了在现实世界中部署强化学习(RL)代理,它们必须能够推广到看不见的环境。但是,RL在分布外的概括方面挣扎,通常是由于过度拟合培训环境的细节。尽管可以应用监督学习的正则化技术来避免过度插入,但超级学习和RL之间的差异限制了其应用。为了解决这个问题,我们提出了RL的信噪比调节的参数不确定性网络(SNR PUN)。我们将SNR作为正规化网络的参数定向的新量度,并提供了正式分析,解释了SNR正则为什么对RL效果很好。我们证明了我们提出的方法在几个模拟环境中概括的有效性;在一个物理系统中,显示了使用SNR PUN将RL应用于现实世界应用程序的可能性。
摘要 - 强化学习(RL)已成为人工智能(AI)和自我足够结构的迅速发展的领域,彻底改变了机器分析和进行选择的方式。在过去的几年中,RL显着提高了更复杂的算法和方法,这些算法和方法解决了越来越复杂的实际世界问题。这一进展是通过使用计算能力的增强,大数据集的可用性以及改进机器获得策略的驱动来驱动的,可以使RL解决从机器人技术和自动驾驶系统到医疗保健和财务的广泛行业的挑战。RL的效果在优化不确定和动态环境中优化选择制定程序的能力方面显而易见。通过从与环境的互动中了解,RL代理可以做出最大化冗长的时间奖励,适应转换情况并随着时间的推移增强的决策。这种适应性使RL在传统方法短暂落后,尤其是在复杂的,过度的空间和安排后的言论中的情况下成为宝贵的工具。本评论旨在提供有关当前RL国家的根本信息,强调其跨学科贡献以及它如何塑造AI和自主技术的命运。它讨论了RL如何影响机器人技术,自然语言处理和娱乐的改进,同时探索其部署的道德和实践要求的情况。此外,它研究了众多领域的主要研究,这些研究促成了RL的发展。
摘要 - 深入强化学习(RL)在人机协作(HRC)中首次尝试在机器人运动计划中显示出令人鼓舞的结果。但是,在保证安全的限制下对HRC的RL方法进行了公平的比较。因此,我们现在是人类机器人体育馆,这是HRC安全RL的基准套件。我们在模块化模拟框架中提供具有挑战性的现实HRC任务。最重要的是,人类机器人健身房是第一间基准套件,其中包括安全盾牌,可证明可以保证人体安全。这弥合了理论RL研究与其现实世界部署之间的关键差距。我们对六项任务的评估导致了三个关键结果:(a)人类机器人体育馆提供的任务的多样性为最先进的RL方法创造了一个具有挑战性的基准,(b)利用采取行动模仿奖励的专家知识,RL代理人可以超越专家,以及(C)我们的Angents超越训练数据。
强化学习(RL)提供了一种通用方法,用于建模和培训AI代理,包括人类互动方案。在本文中,我们提出了Sharpie(hared Human-a i r einformention学习p latform for Iteractive e xperiments),以满足对一般框架的需求,以支持RL代理和人类的实验。它的模型设计由用于RL环境和算法库的多功能包装器组成,这是一个面向参与者的Web Interface,Lotogging Utilities,在流行云和参与者招聘平台上的部署。它使研究人员能够研究与人与RL药物之间的反应有关的各种研究问题,包括与交互式奖励规范和学习的研究,从人类的反馈,行动授权,偏好,用户模型,用户模型和人类团队中学习。该平台基于人类RL相互作用的通用界面,旨在标准化人类文本中RL的研究领域。
摘要 - 深入强化学习(RL)在人机协作(HRC)中首次尝试在机器人运动计划中显示出令人鼓舞的结果。但是,在保证安全的限制下对HRC的RL方法进行了公平的比较。因此,我们现在是人类机器人体育馆,这是HRC安全RL的基准套件。我们在模块化模拟框架中提供具有挑战性的现实HRC任务。最重要的是,人类机器人健身房是第一间基准套件,其中包括安全盾牌,可证明可以保证人体安全。这弥合了理论RL研究与其现实世界部署之间的关键差距。我们对六项任务的评估导致了三个关键结果:(a)人类机器人体育馆提供的任务的多样性为最先进的RL方法创造了一个具有挑战性的基准,(b)利用采取行动模仿奖励的专家知识,RL代理人可以超越专家,以及(C)我们的Angents超越训练数据。
摘要 - 预言学习(RL)已被证明在未来的智能无线网络中起着有希望的作用。在线RL已用于无线电资源管理(RRM),接管了传统计划。但是,由于依靠与环境的在线互动,其作用在在线互动不可行的实际,现实世界中受到限制。此外,在现实世界随机环境中的不确定性和风险面前,传统的RL在不确定性和风险面前处于短缺状态。以这种方式,我们为RRM问题提出了一个离线和分配RL方案,可以使用静态数据集启用离线培训,而无需与环境相互作用,并使用退货的分布来考虑不确定性的来源。仿真结果表明,所提出的方案的表现优于常规资源管理模型。此外,这是唯一超过在线RL的方案,比在线RL增长10%。索引术语 - 分布强化学习,离线强化学习,无线电资源管理
为了充分利用需求侧大量未开发的资源,智能家居技术在解决智能电网“最后一英里”问题中发挥着至关重要的作用。强化学习 (RL) 在解决许多连续决策问题方面表现出色,是智能家居控制的绝佳候选。例如,许多研究已经开始研究动态定价方案下的家电调度问题。基于这些,本研究旨在提供一种经济实惠的解决方案,以鼓励更高的智能家居采用率。具体来说,我们研究将迁移学习 (TL) 与 RL 相结合,以降低最佳 RL 控制策略的训练成本。给定基准住宅的最佳策略,TL 可以启动针对具有不同家电和用户偏好的新住宅的策略的 RL 训练。模拟结果表明,通过利用 TL,RL 训练收敛速度更快,并且对于与基准住宅相似的新住宅,所需的计算时间要少得多。总之,本研究提出了一种经济有效的方法来大规模训练家庭 RL 控制策略,最终降低控制器的实施成本,提高 RL 控制器的采用率,并使更多家庭实现电网互动。
增强学习(RL)是机器学习研究的重要领域,它越来越多地应用于物理中的复杂优化问题。并行,物理学的概念与熵限制的RL等发展有助于RL的重要进展。尽管这些发展导致了两个领域的进步,但在熵调查的RL中获得了优化的分析解决方案,目前是一个空旷的问题。在本文中,我们在熵限制的RL和研究中的研究中建立了映射,该统计学专注于马尔可夫过程以罕见事件为条件。在长期限制中,我们将大型偏差理论的方法应用于马尔可夫决策过程中最佳策略和最佳动态(MDP)模型的确切分析结果。获得的结果导致了熵调查的RL的分析和计算框架,该框架通过模拟验证。这项工作中建立的映射将强化学习和非平衡统计力学方面的研究联系起来,从而为将分析和计算方法的应用从一个领域到另一个领域的尖端问题开放。