强化

File

2025年3月1日机构名称:

智能多能系统中最佳能源管理的深度强化学习

hal是一个多学科的开放访问档案，用于存款和传播科学研究文件，无论它们是否已发表。这些文件可能来自法国或国外的教学和研究机构，也可能来自公共或私人研究中心。

查看详细

File

2025年2月27日机构名称:

统计关系学习和AI（starai）[11，32]，另一方面，在存在不同的对象和关系的数量（即在关系领域）的存在。但是，关系RL [8]相对尚未探索，尽管存在某些方法[42]，但它们并不能按照大型任务进行扩展，并且对于多基因设置而言肯定不容易扩展。一个有希望的方向正在利用层次（和关系）计划的组合，以探索多个级别的抽象和RL来学习低级政策[16，20]。受到AI的这些不同子区域的成功的启发，我们采用了一种方法，该方法利用了关系层次规划师的力量作为噪音，关系领域中多种学习的集中式控制器。我们所提出的方法称为多基金关系计划和强化学习（MarePrel），将计划分解，集中控制和代理位置，用于构建特定任务表示的Starai，以及通过这些专业表示的有效和有效学习的深度RL。我们做出以下关键贡献：（1）据我们所知，我们提出了可以跨越多个对象和关系概括的关系构造域的第一个多基因系统。正如我们在相关工作中所显示的那样，多种文献中存在着重要的文献，关系学习以及计划和学习的整合。我们的工作是在多构想系统中将所有这些方向相结合的第一项工作。（2）为了实现这一目标，我们开发了MarePrel，这是一种综合计划和学习体系结构，能够在关系领域的不确定性下进行多种学习。具体而言，玛丽·玛丽（Mareprel）的有效学习和推理能力源于其关系形式的代表，高级计划的分解以及最低级别的深度RL的使用。（3）最后，我们在一些关系多基因领域中证明了我们的AP级的有效性和概括能力。我们将基于不同基于RL的多构基线（包括明确使用子任务信息）进行比较，并说明了我们方法的优越性。本文的其余部分如下：在审查了相关工作并介绍了必要的背景之后，我们概述了我们的多基因框架，并更详细地讨论算法。然后，我们通过讨论未来研究的领域在结束论文之前对一些关系的多种关系领域进行了实验评估。

查看详细

File

2025年2月25日机构名称:

强化血糖治疗对糖尿病并发症的影响 - 系统评价

摘要：糖尿病并发症可能与疾病或慢性血糖的长期有关。糖尿病患者的随访是基于对慢性高血糖的控制，尽管如果在严重的慢性高血糖症患者中迅速获得这种纠正，则可以自相矛盾地干扰该疾病，甚至引起并发症。我们回顾了描述高血糖对糖尿病复杂性快速而强烈治疗的影响的文献。文献综述表明，恶化并发症发生在糖尿病微血管病中显着发生，糖尿病矫正引起的特定神经病的发作。大型疾病的结果与对中风和心肌梗死具有中性影响的慢性高血糖的密集和快速纠正有些混杂，但心血管死亡率的显着增加。糖尿病的治疗现在已经进入了一个新的时代，新的治疗分子，例如针对2型糖尿病患者的患者的胶质纤维蛋白，或用于胰岛素治疗糖尿病患者的杂交胰岛素递送系统。我们的手稿提供了支持这些个性化和渐进的算法以控制慢性高血糖的证据。

查看详细

File

2025年2月22日机构名称:

智能建筑中HVAC控制的强化学习：技术和概念评论

建筑物中的加热，通风和空调（HVAC）系统是全球运营CO 2排放的主要来源，这主要是由于它们的高能源需求。传统控制器在管理建筑能源使用方面显示出有效性。但是，他们要么难以处理复杂的环境，要么无法将经验中的学习纳入他们的决策过程，从而提高了计算要求。这些缺点的潜在解决方案是增强学习（RL），可以通过其多功能和基于学习的特征来克服它们。在这种情况下，本研究介绍了详尽的文献综述，重点是自2019年以来发表的研究，该研究将RL应用于HVAC系统控制。它桥接了理论概念和文献发现，以确定每个问题的合适算法并找到差距。发现，在实际建筑物中的RL部署有限（占研究的23％），常见的培训方法揭示了基本的技术问题，可以防止其安全使用：外在状态组件中缺乏多元化（例如，占用时间表，电价，电价和天气）在每种情节中在训练中在训练中以多样性或意外改变现实生活的方式收到的代理人在训练中接收。这需要重复的，广泛的再培训，然后在计算上很昂贵。未来的研究应专注于通过解决先前的问题将RL应用于真实建筑物。进一步的研究应探讨这个方向。META-RL作为概括功能的新兴解决方案而出现，因为它可以在各种任务上训练代理，从而使代理更适应性并降低了计算成本。

查看详细

File

2025年2月21日机构名称:

强化学习I -CS 188：人工智能

▪Q1：如何从尝试的事物中学习？（今天，被动加强学习）▪Q2：决定尝试什么？（星期四，主动加强学习）

查看详细

File

2025年2月21日机构名称:

基于模型的强化学习的实验室实验，用于自适应光学控制

摘要。直接对地球系外行星的直接成像是下一代地面望远镜最突出的科学驱动因素之一。通常，类似地球的系外行星位于与宿主恒星的小角度分离，这使得它们的检测变得困难。因此，必须仔细设计自适应光学（AO）系统的控制算法，以将外部行星与宿主恒星产生的残留光区分开。基于数据驱动的控制方法，例如增强学习（RL），可以改善AO控制的有希望的研究途径。rl是机器学习研究领域的一个活跃分支，其中通过与环境的互动来学习对系统的控制。因此，RL可以看作是AO控制的一种自动方法，在该方法中，其使用完全是交钥匙操作。特别是，已显示基于模型的RL可以应对时间和错误注册错误。同样，它已被证明可以适应非线性波前传感，同时有效地训练和执行。在这项工作中，我们在ESO总部的基于GPU的高阶自适应光学测试台（Ghost）测试台上实施并调整了称为AO（PO4AO）的策略优化的RL方法，在实验室环境中我们证明了该方法的强劲性能。我们的实施允许平行执行训练，这对于天上的操作至关重要。，我们研究了该方法的预测性和自我校准方面。我们为实施开放量有据可查的代码，并指定RTC管道的要求。除了硬件，管道和Python接口潜伏期外，还仅引入了幽灵运行Pytorch的新实现。我们还讨论了该方法的重要超参数以及它们如何影响该方法。此外，本文讨论了潜伏期的潜伏期的来源以及较低潜伏期实现的可能路径。

查看详细

File

2025年2月21日机构名称:

Tell-Drive：通过教师LLM引导深入强化学习

摘要 - 尽管深度强化学习（DRL）和大型语言模型（LLMS）每个人都在应对自动驾驶中的决策挑战方面有希望，但DRL通常会遭受较高的样本复杂性，而LLMS则难以确保实时决策。为了解决这些局限性，我们提出了Tell-Drive，这是一个混合框架，该框架集成了教师LLM，以指导基于注意力的学生DRL政策。通过将风险指标，历史场景检索和域启发式法纳入上下文提示中，LLM通过思想链推理产生高级驾驶策略。随后，一种自我发挥的机制将这些策略与DRL代理的探索，加速政策融合并提高各种驾驶条件的鲁棒性。在多种流量方案中评估的实验结果表明，就成功率，平均收益和实时可行性而言，Tell-Drive优于现有的基线方法，包括其他基于LLM的方法。消融研究强调了每个模型成分的重要性，尤其是注意机制和LLM驱动指导之间的协同作用。最后，我们构建了一个虚拟真实的融合实验平台，以验证通过车辆中的实验实验在真实车辆上运行的算法的实时性能，易损和可靠性。全面验证结果可在我们的网站上找到。

查看详细

File

2025年3月7日机构名称:

帮助商人强化其付款基础设施并保护其品牌形象

拥有超过4000万个付款设备在全球部署的付款设备，由超过2500个应用程序提供支持，该公司每天都在满足数百万消费者的需求。通过我们先进的集成解决方案和合作伙伴网络，我们简化了付款世界，并带来了增值服务以推动商业发展。

查看详细

File

2025年2月19日机构名称:

对价值风险的经验方法进行深入的强化学习

风险衡量是现代财务风险管理的核心。市场发展强调了财务数据的复杂性，结果是大多数基于计量经济学模型的假设变得过时了。这意味着他们的结果不再有效，也无法正确解释。出于这个原因，在本文中，已经提出了一种基于Var-Garch模型的强大经验方法（分别var-gjr-garch），并丰富了来自定向预测的信息。标准的定向预测问题被转化为使用Double Deep Q-Network（DDQN）分类器解决的不平衡分类问题，该分类器是一种深层增强学习算法。该模型在本文中的表现是使用每日Eurostoxx 50价格数据评估的，该数据涵盖了许多重大危机和冲击，使我们能够测试其稳健性，除统计测试外。双重Q-NETWORK（DDQN）对回报的风险水平进行更好的预测，从而在风险水平较低时降低风险，或者在较高时增加。获得的结果证明，此方法生成了最准确的VAR估计值。

查看详细

File

2025年2月18日机构名称:

RISCLESS：一种强化学习策略，用于保证云端临时和稳定资源的 SLA

为了降低数据中心中未充分利用资源的运营成本，云提供商 (CP) 可以从常规客户（预订这些资源的客户）回收未使用的资源，然后以较低的价格（转）售给其他客户（我们称之为短暂客户）。这些回收的资源本质上是不稳定的。此类资源的转售必须满足短暂客户对 SLA 的期望。如果违反 SLA，CP 可能会受到处罚。在保证 SLA 的同时在易失性资源上部署应用程序仍然是一个挑战 [1]–[5]。事实上，如果应用程序的资源需求增加，易失性资源可能会丢失并返还给其所有者（常规客户）。常规客户应用程序行为的这种变化很难预测 [6]–[8]。人们提出了不同的策略来提高资源利用率并保证客户对短暂资源的 SLA。一些策略 [1]、[3]–[5]、[9]–[11] 完全依赖于临时资源。它们会留下一部分未使用的资源（称为安全边际），以吸收常规客户应用需求的突然增加，从而减少可回收资源的数量。其他策略 [12]–[16] 将稳定资源与易变资源相结合，以保证客户的 SLA。尽管如此，它们主要关注的是 Amazon Spot 实例 1，其波动性低于回收的资源。因此，在保证 SLA 的同时增加 CP 的利润是一项真正的挑战。我们认为，机器学习 (ML) 可用于确定何时以及在临时资源之上分配多少稳定资源（稳定资源量需要

查看详细

XiaoMi-AI文件搜索系统

强化

智能多能系统中最佳能源管理的深度强化学习

将计划和强化学习结合起来解决关系多重域

强化血糖治疗对糖尿病并发症的影响 - 系统评价

智能建筑中HVAC控制的强化学习：技术和概念评论

强化学习I -CS 188：人工智能

基于模型的强化学习的实验室实验，用于自适应光学控制

Tell-Drive：通过教师LLM引导深入强化学习

帮助商人强化其付款基础设施并保护其品牌形象

对价值风险的经验方法进行深入的强化学习

RISCLESS：一种强化学习策略，用于保证云端临时和稳定资源的 SLA

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI