近年来,研究人员探索了基于强化学习的对象检测方法。但是,现有方法总是几乎没有令人满意的性能。主要原因是当前基于增强学习的方法生成一系列不准确区域而没有合理的奖励函数,并将最终步骤中的非最佳选择视为缺乏有效的区域选择和重新构成策略的检测结果。为了解决上述问题,我们提出了一种新的基于增强的基于基于的对象检测框架,即增强框架,通过将增强剂学习剂与基于卷积神经网络的特征空间整合在一起,具有区域选择的能力并进行了重新确定。在钢筋中,我们重新开发了一个奖励功能,该奖励功能使代理可以有效地训练并提供更准确的区域建议。为了进一步优化它们,我们设计了基于卷积神经网络的区域选择网(RS-NET)和边界框重新填充网络(BBR-NET)。尤其是前者由两个子网络组成:联合网络(IOU-NET)和完整性网络(CPL-NET)共同选择了最佳区域建议。后者旨在将选定的结果重新定义为最终结果。在两个标准数据集Pascal VOC 2007和VOC 2012上的广泛实验结果表明,增强剂能够改善该地区的选择,并学习更好的代理动作表示增强性学习,从而导致最先进的表现。2021 Elsevier B.V.保留所有权利。
摘要 - 对患有1型糖尿病的个体的血糖水平的准确预测有助于通过特定的胰岛素递送来调节血糖。在我们的工作中,我们提出了与长期术语内存网络结合使用的密集连接编码网络的设计。我们将血糖预测提出为深度增强学习问题,并在OHIOT1DM数据集上评估我们的结果。OHIOT1DM数据集包含5分钟内的血糖监测记录,在8周内为12例患有1型糖尿病的患者。先前的工作旨在预测30分钟和45分钟的预测视野中的血糖水平,分别对应于6和9个数据点。与先前的工作相比,到目前为止,相对于平均绝对误差的最佳预测准确性,我们在30分钟和45分钟的预测范围内分别提高了18.4%和22.5%。此外,为了在我们的预测中进行风险评估,我们可视化错误并通过监视错误网格方法评估临床风险。索引术语 - 深处增强学习,长期术语记忆,血糖预测,1型糖尿病
摘要 - 本文提出了一种新颖的方法,将深钢筋学习(DRL)与常规的虚拟同步发电机(VSG)集成在一起,以解决微网(MG)控制的双重目标;频率调节和精确的主动功率共享。mgs通常由多个基于逆变器的分布式生成剂(IBDG)组成,这些生物(IBDG)通过不同的线阻抗并行连接。VSG的常规活动电源循环(APL)遇到明显的稳态频率误差,因为岛岛操作期间的负载增加/减小。为了减轻此问题,将次级控制器(如比例积分(PI)控制)添加到APL中以调节IBDGS的频率。但是,当每个IBDG连接馈线的阻抗值不匹配时,PI控制会损害功率共享功能。为了消除频率错误并同时实现准确的功率共享,本研究采用了基于DRL的策略。代理商从微电网中的每个IBDG收集状态信息作为输入,并使用制定的奖励功能同时满足这两个目标。在MATLAB/SIMULINK设计的两连电微电网系统中证明了受过训练的代理的性能,并与传统方法进行了比较。
摘要:随着Alphago的突破,深入的强化学习已成为解决顺序决策问题的公认技术。尽管其声誉,但由于其试验和错误学习机制引起的数据效率低下,使得深层执行学习难以在广泛的领域应用。已经开发了许多用于样本有效的深层增强学习的方法,例如环境建模,经验转移和分布式修改,其中分布式深层掌握学习表明了其在各种应用中的潜力,例如人类计算机游戏和智能运输。在本文中,我们通过比较了经典的分布式深入强化学习方法并研究重要组成部分,以实现有效的分布式学习,从而涵盖了单个玩家单位分布的深度强化学习与最复杂的多个玩家分布深度强化学习。此外,我们回顾了重新发布的工具箱,这些工具箱有助于实现分布的深度强化学习,而无需对其非分发版本进行多次修改。通过分析其优势和劣势,开发和释放了多人多代理的多代理分布式深入强化学习工具箱,这在战争游戏中得到了进一步的验证,这是一个复杂的环境,显示了针对多个玩家的拟议工具盒的可用性,多个代理和多个代理在复杂的游戏下分配了深度强化学习。最后,我们试图指出挑战和未来的趋势,希望这份简短的评论可以为有兴趣分配深入强化学习感兴趣的研究人员提供指南或火花。
摘要 - 由于物流和仓储环境中的广泛应用,垃圾箱包装问题(BPP)最近引起了热情的研究兴趣。真正必须优化垃圾箱以使更多对象被包装到框中。对象包装顺序和放置策略是BPP的两个关键优化目标。但是,BPP的现有优化方法,例如遗传算法(GA),是高度计算成本的主要问题,准确性相对较低,因此在现实的情况下很难实施。为了很好地缓解研究差距,我们提出了一种新颖的优化方法,用于通过深度增强学习(DRL)定期形状的二维(2D)-BPP和三维(3D)-BPP,最大程度地利用空间,并最大程度地减少盒子的使用数量。首先,提出了由编码器,解码器和注意模块组成的修改指针网络构建的端到端DRL神经网络,以达到最佳对象包装顺序。第二,符合自上而下的操作模式,基于高度图的放置策略用于在框中排列有序的对象,从而防止对象与盒子中的盒子和其他对象碰撞。第三,奖励和损失功能被定义为基于对政治演员批评的框架进行培训的紧凑性,金字塔和用法数量的指标。最后,实施了一系列实验,以将我们的方法与常规的包装方法进行比较,我们从中得出结论,我们的方法在包装精度和效率方面都优于这些包装方法。
摘要 - 在越野环境中旋转的未拧紧地面车辆(UGV)的准确路径跟踪面临着源于操作条件的多样性引起的挑战。用于Ackermann转导车辆的传统基于模型的控制器具有良好的(无防滑)路径跟踪的穿孔,但性能会以越来越不平坦的地形和更快的遍历速度下降。本文介绍了一种新颖的方法,一种混合深化增强学习(HDRL)控制器,利用了线性二次调节器(LQR)的优势和深钢筋学习(DRL)控制器,以增强Ackermann steceered ugvs的增强路径跟踪。DRL控制器主要弥补地形条件和未知车辆参数的不确定性,但训练在计算上可能很昂贵。LQR控制器在初始训练阶段指导DRL控制器,从而确保更稳定的性能并在早期迭代中获得更高的回报。这样做,这种混合方法提供了有望克服基于模型的控制器的局限性以及常规DRL方法的样本信息的局限性。在手稿中显示的初步结果显示了HDRL控制器的希望,表现出比无模型的DRL和常规反馈控制器更好的性能。
学生,MIT-WPU摘要本研究论文对深度强化学习在推动自动驾驶汽车的感知和决策方面推动进步方面所扮演的关键作用进行了简短的探索。通过深度学习和强化学习技术的融合,我们深入研究了这些方法如何协同促进在复杂且动态变化的环境中增强自动驾驶汽车的导航水平。重点是简化的演示文稿,本文提供了对自动驾驶汽车使用的各种感知算法的简洁而深刻的概述,强调对象检测,语义细分和基于激光雷达的技术。同时,它深入研究了深度强化学习的基本原理,阐明了这种合并在加强实时决策过程中的应用。承认简洁的约束,该论文简要介绍了关键方面,例如数据收集的复杂性和模型培训的关键作用。此外,该论文涉及自动驾驶部署固有的道德考虑,并强调了它们在塑造AI驱动运输的未来方面的重要性。从实际实施中汲取灵感,简洁地提出了案例研究,以说明自动驾驶汽车中深钢筋学习技术的切实整合,从而展示了其对增强导航能力的影响。1。浏览复杂的城市景观需要先进的技术。关键字:深度强化学习,自动驾驶汽车,感知算法,决策,导航,实时处理,深度学习,强化学习,道德考虑,案例研究。引言背景自动驾驶汽车已成为现代运输中的革命范式,承诺重塑人们和商品的移动方式。这些车辆配备了高级传感器,相机和处理单元,使它们能够在无人干预的情况下与环境进行导航和互动。但是,将自动驾驶汽车无缝整合到我们的日常生活中取决于他们准确地感知环境并实时做出迅速,明智的决定的能力。这项研究的重点是两个重要领域的融合:通过深度强化学习的视角,感知和决策。通过将深度学习的模式识别与强化学习的顺序决策技巧相结合,我们正在努力为自动驾驶汽车配备复杂的现实世界情景所需的工具。