深层生成模型(DGM)在各个领域都表现出了巨大的成功,尤其是在使用离线数据训练的模型生成文本,图像和视频方面。同样,数据驱动的决策和机器人控制也需要从离线数据中学习发电的功能,以作为策略或政策。在这种情况下,在离线政策学习中应用深层生成模型具有巨大的潜力,并且在这个方向上进行了许多研究。但是,该领域仍然缺乏全面的审查,因此不同分支机构的发展相对独立。在本文中,我们提供了有关深层生成模型用于离线政策学习的应用的首次系统审查。,我们涵盖了五个主流深层生成模型,包括变量自动编码器,生成的对抗网络,正常的流量,变压器和扩散模型,以及它们在离线增强学习(离线RL)和模仿学习(IL)中的应用。离线RL和IL是离线政策学习的两个主要分支,是依次决策的广泛方法。值得注意的是,对于每种基于DGM的离线政策学习,我们根据DGM的使用来提炼其基本方案,CateGo-size相关工作,并在该领域中整理算法的开发过程。在主要内容之后,我们提供了有关深层生成模型和离线政策学习的深入讨论,作为摘要,我们介绍了我们对未来研究方向的观点。1这项工作为离线政策学习深度生成模型的研究进度提供了动手参考,并旨在激发改进基于DGM的离线RL或IL算法的改进。为方便起见,我们在https://github.com/lucascjysdl/dgms-forline-policy-learning上维护纸张列表。
已显示出频率的方法,例如保守Q学习(CQL),对具有重置骨架的训练通才代理人有利。最近的视觉和自然语言处理研究表明,与具有强烈诱导性偏见(例如卷积神经网络和经常性神经网络)相比,基于变压器的模型比例更为有利。在本文中,我们研究了视觉变压器(VIT)的训练单游戏代理的CQL的骨干。在这项工作中,我们通过引入时空注意层来增强基于图像的RL的视觉变压器(VIT)。我们进一步研究了各种嵌入序列凝集方法对VIT性能的影响。总的来说,我们修改的VIT优于单场Atari设置中的标准VIT。
在许多慢性疾病管理和重症监护应用中推荐最佳治疗策略的数据驱动方法越来越兴趣。强化学习方法非常适合这个顺序的决策问题,但必须专门在回顾性病历数据集上进行培训和评估,因为直接在线探索是不安全且不可行的。尽管有这一要求,但绝大多数治疗优化研究都使用了偏离RL方法(例如,在纯粹的离线设置中表现较差的双重深Q网络(DDQN)或其变体)。离线RL的最新进展,例如保守Q学习(CQL),提供了合适的替代方案。,但是在将这些方法调整到现实世界应用中仍然存在挑战,在这些方法中,次优示例主导着回顾性数据集,并且需要满足严格的安全限制。在这项工作中,我们引入了一种实用且理论上的过渡抽样方法,以解决离线RL培训期间的行动失衡。我们对糖尿病和败血症治疗优化的两个现实世界任务进行了广泛的实验,以将所提出的方法的性能与突出的非上线和离线RL基准(DDQN和CQL)进行比较。在一系列有原则和临床相关的指标中,我们表明我们提出的方法可以根据相关的实践和安全指南进行实质性改善。
注意:1.我们强烈建议客户在购买我们的产品时仔细检查商标,如果有任何问题,请随时与我们联系。2.电路设计时请不要超过设备的绝对最大额定值。3.Winsemi Microelectronics Co., Ltd 保留对本规格书进行更改的权利,如有更改,恕不另行通知。
明尼苏达州劳工和工业部 (DLI) 部署了一项新技术,该技术将用于虚拟检查特定类型的项目。最初,只有楼梯升降椅安装将使用该技术进行检查。所提供的虚拟检查类型称为离线现场报告 (OFR),由安装人员进行,提交后由州检查员在线审查。该技术由 VuSpex 开发,他们的 OFR 产品称为 VuSpex Go。
深脑刺激(DBS)通过将电脉冲传递到大脑的基底神经节(BG)区域来治疗由帕金森氏病(PD)引起的运动症状的巨大希望。但是,美国食品药品监督管理局(FDA)批准的DBS设备只能以固定幅度提供连续的DBS(CDB)刺激;这种效率低下的操作可降低设备的电池寿命,无法动态地适应活动,并且可能引起严重的副作用(例如步态障碍)。在这项工作中,我们引入了一个离线增强学习(RL)框架,允许使用过去的临床数据来训练RL政策以实时调整刺激幅度,目的是减少能源利用,同时保持相同的治疗水平(即,控制)功效为CDB。此外,临床原型要求在患者部署之前证明此类RL控制器的安全性和性能。因此,我们还引入了一种离线政策评估(OPE)方法,以在对患者进行部署之前使用历史数据估算RL政策的性能。我们对配备RC+S DBS系统的四名PD患者进行了评估,在每月临床就诊期间采用RL控制器,并通过症状严重程度评估了整体控制功效(即,Bradykinesia和Tremor),PD生物制造商的变化(即,本地现场电位)和患者评分。临床实验的结果表明,我们的基于RL的控制器保持与CDB相同的控制功效水平,但刺激能量显着降低。此外,OPE方法在准确估算和对RL控制器的预期回报方面有效。
在经验(深)RL研究中确实是这种情况,在这种情况下,算法通过与模拟环境相互作用与样品数据轨迹相互作用,从而发现了近乎最佳的策略。这里的目标非常明确:使用给定数量的计算找到一个良好的策略,其中包括算法的成本和模拟器的采样数据的成本。While this paradigm has led to impressive successes in difficult simulation tasks [ 75 , 87 ], it becomes increas- ingly clear that the above paradigm is insufficient for many potential applications we hope to apply RL to, in- cluding adaptive clinical trials [ 112 , 113 , 79 , 74 ], rec- ommendation systems and customer relationship manage- ment [ 114 , 1 ], online education [ 12 , 64 ], and 更多的。上述情况的一个共同点是,人类/用户/学生是“环境”的一部分,很难为人类的心理/生物学方面提出准确的模拟器。其中 -
摘要 - 数据是AI中的重要资产,因为高质量的数据集可以显着提高机器学习模型的性能。在自动驾驶汽车等安全性领域中,离线深度强化学习(Offline DRL)经常用于在预采用的数据集中训练模型,而不是通过与现实世界环境进行互动作为在线DRL来培训这些模型。为了支持这些模型的开发,许多机构可以通过开放源许可公开获得数据集,但是这些数据集有可能滥用或侵权的风险。向数据集注入水印可能会保护数据的知识产权,但是它无法处理已经发布的数据集,并且以后无法更改。其他现有解决方案,例如数据集推理和会员推理,由于不同的模型行为特征和离线设置约束,因此在离线DRL方案中无法正常工作。
摘要 - 离线增强学习(RL)提供了一种有希望的方法,以避免与真实环境的昂贵在线互动。但是,离线RL的性能高度取决于数据集的质量,这可能会导致学习过程中的外推错误。在许多机器人范围内,通常可以使用不准确的模拟器。但是,由于众所周知的探索 - 剥削困境以及不准确的模拟和真实环境之间的动态差距,直接从不准确的模拟器收集的数据不能直接用于离线RL中。为了解决这些问题,我们提出了一种新颖的方法,以更好的方式将离线数据集和不准确的仿真数据组合在一起。具体来说,我们预先训练了生成对抗网络(GAN)模型,以适合离线数据集的状态分布。给出了这一点,我们从发电机提供的分布开始,从不准确的模拟器中收集数据,并使用鉴别器重新重量模拟数据。我们在D4RL基准测试中的实验结果和现实世界中的操纵任务确认,我们的方法可以从不准确的模拟器和有限的离线数据集中受益更多,以比先进的方法获得更好的性能。
摘要 - 在恶劣条件下在复杂情况下驾驶车辆是自动驾驶汽车(AV)的最大挑战。为了解决这个问题,我们在复杂的场景中使用前主动转向系统提出了层次运动计划和稳健的控制策略,并在各种湿滑的道路粘附系数中,同时考虑车辆不确定的参数。通过智能驾驶员模型(IDM)考虑并以车辆跟随模型的形式考虑人类车辆(HVS)的行为(HVS)。然后,在上层中,运动计划者首先使用人工电位场(APF)算法来生成最佳轨迹,例如,路标,边界和静态/动态障碍物,例如道路标记,边界和静态/动态障碍。为了在下层跟踪生成的最佳trajectory,通过应用线性矩阵不等式(LMI)优化方法,使用线性参数变化(LPV)系统来实现离线约束的输出反馈鲁棒模型预测性控制(RMPC),以确保对模型参数的鲁棒性不适合模型不限制。更重要的是,通过增强系统模型,我们提出的方法称为离线RMPC,与三种现有的RMPC方法相比,具有出色的效率,例如,偏置式挡板offline RMPC,在线rmpc,在线rmpc和离线rmpc无需增强模型(离线rmpc w/o am),在不线rmpc w/o am)(均改进了计算时间),并改进了计算时间和添加时间。