摘要 - 在本文中,我们为在协作环境中为智能负载平衡和排队代理提供了图形卷积深的加固学习框架。我们旨在平衡不同路径上的流量负载,然后控制网络节点上属于不同流量类别的数据包。我们的目标是双重的:首先是在吞吐量和端到端延迟方面提高一般网络性能,其次,以确保满足一组分类网络流的严格服务水平协议。我们的建议使用注意机制从当地观察和邻里政策中提取相关特征,以限制机构间通信的开销。我们在台球测试台中评估了我们的算法,并表明它们在吞吐量和端到端延迟方面都优于加载平衡和智能排队的经典方法。索引术语 - 智能排队,负载平衡,深入执行学习,多代理系统。
将大语言模型(LLM)与人类偏好保持一致,在建立现代生成模型中起着关键作用,可以通过从人类反馈(RLHF)学习来实现。尽管表现出色,但当前的RLHF方法通常需要大量的人类标记的偏好数据,这很昂贵。在本文中,受主动学习成功的启发,我们通过提出查询有效的RLHF方法来解决此问题。We first formalize the alignment problem as a contextual dueling bandit problem and design an active-query-based proximal policy optimization ( APPO ) algorithm with an e O ( d 2 / ∆) instance-dependent regret bound and an e O ( d 2 / ∆ 2 ) query complexity, where d is the dimension of feature space and ∆ is the sub-optimality gap over all the contexts.然后,我们提出了基于直接偏好优化(DPO)的算法的实用版本ADPO,并将其应用于微调LLMS。我们的实验表明,ADPO仅对人类偏好的查询进行了大约一半的查询,与最先进的DPO方法的性能相匹配。
摘要 - 智能传统信号控制器,将DQN算法应用于传递光策略优化,通过将TRAF-Fimfimals调整到实时交通状态,可以充分地减少交通拥堵。文献中的大多数命题都认为,检测到十字路口的所有车辆都是不现实的情况。最近,新的无线通信技术已通过基础设施对连接的车辆进行了成本范围的检测。只有当前配备的总量的一小部分,可以在低检测率下执行的方法。在本文中,我们提出了一个深钢筋Q学习模型,以优化孤立的交叉点,在具有连接车辆的部分可观察到的环境中。首先,我们在RL框架中介绍了新颖的DQN模型。我们为部分可观察到的环境引入了新的状态表示形式,并为传播信号控制提供了新的奖励功能,并提供网络体系结构和调整的超参数。第二,我们以两个步骤在多种情况下在数值模拟中评估模型的性能。首先完全检测到现有的驱动控制器,然后部分分解,并与互联车辆比例的损失估计值进行部分分解。最后,从获得的结果中,我们定义了可接受和最佳性能水平的检测率。该模型的源代码实现可在以下网址获得:https://github.com/romainducrocq/dqn-itscwpd
国际计算机工程技术杂志(IJCET)第16卷,第1期,Jan-Feb 2025,pp。2703-2714,文章ID:IJCET_16_01_190在线可在https://iaeme.com/home/issue/issue/ijcet?volume=16&issue = 1 ISSN印刷:0976-6367; ISSN在线:0976-6375;期刊ID:5751-5249影响因子(2025):18.59(基于Google Scholar引用)doi:https://doi.org/10.34218/ijcet_16_01_1_190
摘要 - 学习机器人导航策略 - 三角形对于基于域的应用至关重要。结合感知,计划和预测使我们能够对机器人和行人之间的相互作用进行建模,从而导致不断的结果,尤其是基于深度强化学习(RL)的最新方法。但是,这些作品不考虑多机器人方案。在本文中,我们提出了MultiSoc,这是一种使用RL学习多代理社会意识的导航策略的新方法。受到有关多代理深度RL的最新作品的启发,我们的方法利用了基于图形的代理相互作用的表示,结合了实体(行人和代理人)的位置和视野。每个代理使用基于两个图神经网络和注意机制的模型。首先,边缘se子产生一个稀疏的图,然后一个人群坐标应用了节点注意,以产生代表每个实体对其他实体的影响的图。这被整合到一个无模型的RL框架中,以学习多代理策略。我们评估了我们的模拟方法,并在各种条件(代理 /行人的数量)中提供了一系列实验。经验结果表明,我们的方法比社会导航更快地学习了深度RL单一代理技术,并且可以在挑战人群导航中通过多个异构人类进行有效的多代理隐式协调。此外,通过合并可自定义的元参数,我们可以调整邻里密度以考虑到我们的导航策略。
电池建模的中心步骤是识别模型参数。但是,参数的确定是时间耗尽,通常是次优的。强化学习提供了一种有希望的替代方案,其中代理通过交互和目标奖励来学习最佳参数。本学士学位论文的目标是对基于RL的参数确定的全面搜索和一个简单示例的实际实现。
在严峻的招募环境下,防卫省和自卫队从“人才”角度出发,通过提高待遇等职业吸引力、升级部队、利用外部力量等,从根本上加强人才基础。防卫省和自卫队还将加强医疗职能。此外,为了维持和加强国防生产和技术基础,防卫省和自卫队将稳步实施各种举措,包括根据《加强国防生产和技术基础法》采取的举措以及先进民用技术的研发和采用措施。
强化学习已成为实现高级机器人控制的最突出的范式之一。一个典型的例子是在具有挑战性的地形上对四足动物的运动,通过RL学到的政策现在正在使用商业机器人平台发货。然而,机器人RL面临特定的挑战,因为它们的物理实施例收集了大量现实的交互数据是不可能的。为了渲染机器人增强学习,可以以各种方式整合先前的信息,从模拟(SIM2REAL),人类演示或校正到生成模型(例如LLMS)。
摘要 - 在本文中,我们使用原始加固学习(RL)方法提出了一种基于学习的非线性模型预测控制器(NMPC),以学习NMPC方案的最佳权重。控制器用作深度预期SARSA的当前动作值函数,其中通常用次级NMPC获得的后续动作值函数与神经网络(NN)近似。在现有方法方面,我们添加了NN的输入NMPC学习参数的当前值,以便网络能够近似行动值函数并稳定学习性能。另外,在使用NN的情况下,实时计算负担大约减半而不会影响闭环性能。此外,我们将梯度时间差异方法与参数化的NMPC结合在一起,作为预期的SARSA RL方法的函数近似函数,以克服函数近似中存在非线性时克服潜在参数的差异和不稳定性问题。仿真结果表明,所提出的方法在没有不稳定性问题的情况下收敛到本地最佳解决方案。
深度加固学习(DRL)是一种在各种复杂环境中训练自主代理的方法。尽管在众所周知的环境中表现出色,但它仍然容易受到较小条件的变化,这引起了人们对其在现实世界应用中的可靠性的担忧。为了改善Usabil的影响,DRL必须表现出可信赖和稳健性。通过对环境动力学的良好适合对抗性攻击进行训练,通过训练代理人来训练代理商,将DRL鲁尔的鲁棒性转化为未知变化的鲁棒性。解决这个关键问题时,我们的工作对当代对抗攻击方法进行了深入分析,系统地对其进行了分类并比较其目标和操作机制。此分类提供了一个详细的见解,以了解对抗性攻击如何有效地评估DRL代理的弹性,从而为增强其稳健性铺平了道路。