深层生成模型(DGM)在各个领域都表现出了巨大的成功,尤其是在使用离线数据训练的模型生成文本,图像和视频方面。同样,数据驱动的决策和机器人控制也需要从离线数据中学习发电的功能,以作为策略或政策。在这种情况下,在离线政策学习中应用深层生成模型具有巨大的潜力,并且在这个方向上进行了许多研究。但是,该领域仍然缺乏全面的审查,因此不同分支机构的发展相对独立。在本文中,我们提供了有关深层生成模型用于离线政策学习的应用的首次系统审查。,我们涵盖了五个主流深层生成模型,包括变量自动编码器,生成的对抗网络,正常的流量,变压器和扩散模型,以及它们在离线增强学习(离线RL)和模仿学习(IL)中的应用。离线RL和IL是离线政策学习的两个主要分支,是依次决策的广泛方法。值得注意的是,对于每种基于DGM的离线政策学习,我们根据DGM的使用来提炼其基本方案,CateGo-size相关工作,并在该领域中整理算法的开发过程。在主要内容之后,我们提供了有关深层生成模型和离线政策学习的深入讨论,作为摘要,我们介绍了我们对未来研究方向的观点。1这项工作为离线政策学习深度生成模型的研究进度提供了动手参考,并旨在激发改进基于DGM的离线RL或IL算法的改进。为方便起见,我们在https://github.com/lucascjysdl/dgms-forline-policy-learning上维护纸张列表。
摘要。受到跨各个应用领域的反相反优化(IO)的最新成功的启发,我们提出了一种新型的离线增强学习(ORL)算法,用于连续状态和动作空间,利用IO文献中的凸损失函数,称为“凸丢失函数”。为了减轻在ORL问题中通常观察到的分布变化,我们进一步采用了强大的,非毒性模型预测控制(MPC)专家,使用来自模型不匹配的内在信息来指导动力学的名义模型。与现有文献不同,我们强大的MPC专家享有确切且可拖延的凸重新印象。在这项研究的第二部分中,我们表明,受提议的凸损失功能培训的IO假设类别具有丰富的表现力,并且在使用Mujoco基准的低DATA基准中的最先进的方法(SOTA)方法进行了竞争性绩效,同时使用了三个较少的资源,需要很少有参数,几乎需要。为了促进结果的可重复性,我们提供了实施提出算法和实验的开源软件包。
摘要 - 离线增强学习(RL)提供了一种有希望的方法,以避免与真实环境的昂贵在线互动。但是,离线RL的性能高度取决于数据集的质量,这可能会导致学习过程中的外推错误。在许多机器人范围内,通常可以使用不准确的模拟器。但是,由于众所周知的探索 - 剥削困境以及不准确的模拟和真实环境之间的动态差距,直接从不准确的模拟器收集的数据不能直接用于离线RL中。为了解决这些问题,我们提出了一种新颖的方法,以更好的方式将离线数据集和不准确的仿真数据组合在一起。具体来说,我们预先训练了生成对抗网络(GAN)模型,以适合离线数据集的状态分布。给出了这一点,我们从发电机提供的分布开始,从不准确的模拟器中收集数据,并使用鉴别器重新重量模拟数据。我们在D4RL基准测试中的实验结果和现实世界中的操纵任务确认,我们的方法可以从不准确的模拟器和有限的离线数据集中受益更多,以比先进的方法获得更好的性能。
摘要:由于离线控制光伏 (PV) 电站不具备在线通信和远程控制系统,因此无法实时调节功率。因此,在离线控制光伏饱和的配电网中,配电系统运营商 (DSO) 应考虑可再生能源的不确定性来调度分布式能源 (DER),以防止因过压而导致的限电。本文提出了一种使用移动储能系统 (MESS) 和离线控制光伏的日前网络运行策略,以最大限度地减少功率削减。MESS 模型有效地考虑了 MESS 的运输时间和功率损耗,并模拟了各种操作模式,例如充电、放电、空闲和移动模式。优化问题基于混合整数线性规划 (MILP) 制定,考虑到 MESS 的空间和时间操作约束,并使用机会约束最优潮流 (CC-OPF) 执行。离线控制光伏的上限基于概率方法设定,从而减轻由于预测误差导致的过电压。所提出的运行策略在 IEEE 33 节点配电系统和 15 节点运输系统中进行了测试。测试结果证明了所提出方法在离线控制光伏系统中最小化限电的有效性。
基于技能的强化学习(RL)方法已经表现出巨大的希望,尤其是在通过层次结构解决长期地平线任务时。这些技能是从离线数据集中学习的任务不足的,可以加速新任务的政策学习过程。然而,由于它们对数据集的固有依赖性,这些技能在不同领域中的应用仍受到限制,当试图通过与数据集域不同的目标域学习基于技能的策略时,它在尝试通过RL学习基于技能的策略时会构成挑战。在本文中,我们提出了一个新颖的离线技能学习框架 - 使用指导的扩散模型来产生从数据集中有限技能扩展的多功能技能,从而增强了对不同领域任务的策略学习的稳健性。具体而言,我们设计了一个基于扩散的技能解码器,并结合层次编码,以将技能嵌入空间分解为两个不同的表示,一种是用于构造域名行为的行为,另一个用于驱散行为中域变化的因素。我们的duskill框架增强了离线学习技能的多样性,从而可以加快针对不同领域的高级政策的学习过程。通过实验,我们表明,Duskill在几个长期任务中都超过了其他基于技能的模仿学习和RL算法,这表明了它的好处,并以几种模仿和在线RL表现出来。
在本文中,我们应对基于离线手写的对比损失 - 十个签名验证模型的白盒假阳性对抗性攻击的挑战。我们采用了一种新颖的攻击方法,该方法将攻击视为紧密复制但独特的写作风格之间的样式转移。为了指导欺骗性图像的产生,我们引入了两个新的损失函数,通过扰动原始样品和合成样品的嵌入向量之间的欧几里得距离来提高抗差成功率,同时通过降低生成图像和原始图像之间的差异来确保最小的扰动。我们的实验证明了我们的方法在白框攻击基于对比度损失的白框攻击中的最新性能,这是我们的实验所证明的。与其他白色盒子攻击方法相比,本文的主要内容包括一种新颖的假积极攻击方法,两种新的损失功能,手写样式的有效风格转移以及在白盒子假阳性攻击中的出色性能。
摘要 - 在恶劣条件下在复杂情况下驾驶车辆是自动驾驶汽车(AV)的最大挑战。为了解决这个问题,我们在复杂的场景中使用前主动转向系统提出了层次运动计划和稳健的控制策略,并在各种湿滑的道路粘附系数中,同时考虑车辆不确定的参数。通过智能驾驶员模型(IDM)考虑并以车辆跟随模型的形式考虑人类车辆(HVS)的行为(HVS)。然后,在上层中,运动计划者首先使用人工电位场(APF)算法来生成最佳轨迹,例如,路标,边界和静态/动态障碍物,例如道路标记,边界和静态/动态障碍。为了在下层跟踪生成的最佳trajectory,通过应用线性矩阵不等式(LMI)优化方法,使用线性参数变化(LPV)系统来实现离线约束的输出反馈鲁棒模型预测性控制(RMPC),以确保对模型参数的鲁棒性不适合模型不限制。更重要的是,通过增强系统模型,我们提出的方法称为离线RMPC,与三种现有的RMPC方法相比,具有出色的效率,例如,偏置式挡板offline RMPC,在线rmpc,在线rmpc和离线rmpc无需增强模型(离线rmpc w/o am),在不线rmpc w/o am)(均改进了计算时间),并改进了计算时间和添加时间。
离线增强学习(RL)试图使用离线数据学习最佳策略,由于其在在线数据收集不可行或昂贵的关键应用程序中的潜力,因此引起了极大的兴趣。这项工作探讨了联合学习对离线RL的好处,旨在协作利用多个代理商的离线数据集。专注于有限的情节表格马尔可夫决策过程(MDPS),我们设计了FedLCB-Q,这是针对联合离线RL量身定制的流行无模型Q学习算法的变体。FedLCB-Q更新了具有新颖的学习率时间表的代理商的本地Q-功能,并使用重要性平均和精心设计的悲观惩罚项将其在中央服务器上汇总。Our sample complexity analysis reveals that, with appropriately chosen parameters and synchronization schedules, FedLCB-Q achieves linear speedup in terms of the number of agents without requiring high-quality datasets at individual agents, as long as the local datasets collectively cover the state-action space visited by the optimal policy, highlighting the power of collaboration in the federated setting.实际上,样本复杂性几乎与单代理对应物的复杂性匹配,好像所有数据都存储在中心位置,直到地平线长度的多项式因子。此外,fedlcb-Q是通信有效的,其中通信弹的数量仅相对于地平线长度与对数因素有关。
强化学习(RL)范式解决了这些类型的问题,其中代理通过接收观察和潜在的奖励与环境互动,并以其政策指导的行动做出回应。rl框架可以根据其建模假设和模拟环境的可访问性进行分类。基于模型的RL可实现对环境的明确建模,利用专家知识或从经验中学习。博学的世界模型取得了巨大的成功,主要是因为它们创建了简化的状态表示形式,与稀疏和非微分奖励相比产生了更多的训练信号,并促进了学习模型的潜在空间中的互动,绕开了对计算要求和潜在不现实的不现实的专家模拟器的需求。
