摘要 - 围绕行业5.0的讨论强调了完全相互联系的工业生态系统,将AI和数字双胞胎整合在一起。在这种环境中,工业设备必须与人类工人无缝合作,需要低延迟,高数据速率连接才能实时监控。为了满足这一需求,已经开发了时间敏感的网络(TSN)标准。但是,在动态工业网络中配置TSN会带来挑战。IEEE 802.1Q标准提供了诸如时光塑形器(TAS)之类的机制,以在正确配置时达到确定性延迟。在本文中,我们可以在动态网络中处理TA的配置,例如重新配置生产线以适合生产目标或在生产线中部署新应用程序,从而在网络中添加了新的流。我们的解决方案采用了深入的增强学习(DRL),通过模拟进行了训练和评估,从而适应不断变化的网络条件和动态生产线重新配置。
摘要 - 对建筑能源(包括HVAC和电池存储系统)的自治控制有可能优化运营并实现目标,例如成本最小化。现有方法要么需要建筑物的明确数学模型,要么诉诸于基于规则的控件(RBC),这可能是次优的。无模型的加固学习(RL)是一种克服这些局限性的有前途的方法 - 但是,在学习功能策略之前,通常需要与真实环境进行大量互动。在这项工作中,我们研究了“动作掩盖”,这是一种提高RL算法学习效率的技术,同时尊重学习阶段的安全规则。我们的解决方案与基线规则的控制器相比,成本降低了6%,并且表现优于流行的转移学习策略。这表明无模型的RL方法对于该领域的问题是可行的且实用的。
摘要 - 在本文中,我们为在协作环境中为智能负载平衡和排队代理提供了图形卷积深的加固学习框架。我们旨在平衡不同路径上的流量负载,然后控制网络节点上属于不同流量类别的数据包。我们的目标是双重的:首先是在吞吐量和端到端延迟方面提高一般网络性能,其次,以确保满足一组分类网络流的严格服务水平协议。我们的建议使用注意机制从当地观察和邻里政策中提取相关特征,以限制机构间通信的开销。我们在台球测试台中评估了我们的算法,并表明它们在吞吐量和端到端延迟方面都优于加载平衡和智能排队的经典方法。索引术语 - 智能排队,负载平衡,深入执行学习,多代理系统。
摘要 - 智能传统信号控制器,将DQN算法应用于传递光策略优化,通过将TRAF-Fimfimals调整到实时交通状态,可以充分地减少交通拥堵。文献中的大多数命题都认为,检测到十字路口的所有车辆都是不现实的情况。最近,新的无线通信技术已通过基础设施对连接的车辆进行了成本范围的检测。只有当前配备的总量的一小部分,可以在低检测率下执行的方法。在本文中,我们提出了一个深钢筋Q学习模型,以优化孤立的交叉点,在具有连接车辆的部分可观察到的环境中。首先,我们在RL框架中介绍了新颖的DQN模型。我们为部分可观察到的环境引入了新的状态表示形式,并为传播信号控制提供了新的奖励功能,并提供网络体系结构和调整的超参数。第二,我们以两个步骤在多种情况下在数值模拟中评估模型的性能。首先完全检测到现有的驱动控制器,然后部分分解,并与互联车辆比例的损失估计值进行部分分解。最后,从获得的结果中,我们定义了可接受和最佳性能水平的检测率。该模型的源代码实现可在以下网址获得:https://github.com/romainducrocq/dqn-itscwpd
在严峻的招募环境下,防卫省和自卫队从“人才”角度出发,通过提高待遇等职业吸引力、升级部队、利用外部力量等,从根本上加强人才基础。防卫省和自卫队还将加强医疗职能。此外,为了维持和加强国防生产和技术基础,防卫省和自卫队将稳步实施各种举措,包括根据《加强国防生产和技术基础法》采取的举措以及先进民用技术的研发和采用措施。
摘要:大多数当前的强化学习研究都是在游戏和其他模拟域的背景下完成的。但是,利用这些领域的令人印象深刻的结果来产生现实世界的影响需要应对其他挑战。这些挑战包括处理结构化的状态和行动空间,即使是适度数据集,也可以提供安全,健壮和可扩展的解决方案,并明确考虑RL代理如何与人类合作者进行交互。AI4RealNet项目重点介绍了在现实世界中关键基础架构(例如电网,火车调度和空中交通管理)的顺序决策中的此类挑战。在本演讲中,我将讨论AI4RealNet项目如何处理这些问题,以及我们团队在这些领域的技术进步。
收到:2024年11月18日修订:2024年12月26日接受:2025年1月13日发布:2025年1月30日摘要 - 本文介绍了自动增强学习(RL)的全面概述,强调了内在动机在技能撰写的开放式形成中的作用。我们描述了基于知识和基于能力的内在动机之间的区别,并说明了这些概念如何为能够产生和追求自定义目标的自主剂的发展提供了信息。探索了本质上动机的目标探索过程(IMGEP)的类型,重点是对多目标RL和发展机器人技术的影响。自动学习问题是在无奖励的马尔可夫决策过程(MDP)中构建的,在该过程中,代理必须自主代表,产生和掌握自己的目标。我们应对评估此类代理的独特挑战,提出各种指标,以衡量复杂环境中的探索,概括和鲁棒性。这项工作旨在促进对自动RL代理的理解及其在各种动态环境中增强技能获取的潜力。
随机近似是一类算法,这些算法迭代,递增和随机更新,包括,例如,包括随机梯度下降和时间差学习。分析随机近似算法的一个基本挑战是建立其稳定性,即表明随机矢量迭代几乎肯定是有限的。在本文中,我们将著名的Borkar-Meyn定理从Martingale不同的噪声设定设置扩展到Markovian噪声设置,从而极大地提高了其在强化学习方面的适用性,尤其是在那些具有线性功能近似近似和资格率痕迹的O效性强化学习算法中。我们分析的核心是一些函数的变化变化速率的降低,这两种形式的强大定律和迭代对数定律的形式都暗示。关键字:随机近似,增强学习,稳定性,几乎确定的收敛性,资格跟踪
本文通过将因果发现与增强学习整合到供应链中的产生供应风险的新颖方法是导致供应链中交付风险的归因。随着供应链的越来越复杂,根本原因分析的传统方法难以捕获各种因素之间的复杂相互关系,通常会导致虚假的相关性和次优决策。我们的方法通过利用因果发现来确定操作变量之间的真正因果关系,并加强学习来迭代地完善因果图。此方法可以准确识别后期交付的关键驱动因素,例如运输模式和交货状态,并提供可行的见解以优化供应链性能。我们将方法应用于现实世界中的供应链数据集,证明了其在揭示交付延迟的根本原因方面的有效性,并提供了缓解这些风险的策略。这些发现对提高运营效率,客户满意度和供应链中的整体盈利能力具有重大意义。
这项工作介绍了用于应用强化学习(RL)的工具链,特别是在安全至关重要的现实世界环境中的深层确定性政策梯度(DDPG)算法。作为示例性应用,在均质电荷压缩点火(HCCI)模式下的单缸内燃机测试台上证明了瞬态载荷控制,这表明高热E FFI且发电率较低。但是,HCCI由于其非线性,自回归和随机性质而对传统控制方法构成了挑战。rl提供了可行的解决方案,但是,在应用于HCCI时,必须解决安全问题(例如压力上升率过高)。单个不合适的控制输入会严重损坏发动机或引起失火并关闭。此外,不知道工作限制,必须通过实验确定。为了减轻这些风险,实施了基于K-Neareb最邻居算法的实时安全监控,从而可以与Testbench进行安全互动。当RL代理通过与测试板互动来学习控制策略时,该方法的可行性被证明。均方根误差为0。1374 bar用于指定的平均e ff效力压力,可与文献中的基于神经网络的控制器相当。通过调整代理商的政策增加乙醇能源份额,在维持安全性的同时促进可再生燃料的使用,从而进一步证明了工具链的灵活性。这种RL方法解决了将RL应用于安全至关重要的现实环境的长期挑战。开发的工具链具有其适应性和安全机制,为RL在发动机测试板和其他关键性设置中的未来适用性铺平了道路。
