在经验(深)RL研究中确实是这种情况,在这种情况下,算法通过与模拟环境相互作用与样品数据轨迹相互作用,从而发现了近乎最佳的策略。这里的目标非常明确:使用给定数量的计算找到一个良好的策略,其中包括算法的成本和模拟器的采样数据的成本。While this paradigm has led to impressive successes in difficult simulation tasks [ 75 , 87 ], it becomes increas- ingly clear that the above paradigm is insufficient for many potential applications we hope to apply RL to, in- cluding adaptive clinical trials [ 112 , 113 , 79 , 74 ], rec- ommendation systems and customer relationship manage- ment [ 114 , 1 ], online education [ 12 , 64 ], and 更多的。上述情况的一个共同点是,人类/用户/学生是“环境”的一部分,很难为人类的心理/生物学方面提出准确的模拟器。其中 -
在离线模仿学习(IL)中,代理商旨在学习最佳的专家行为政策,而无需其他在线环境互动。但是,在许多现实情况下,例如机器人操纵,脱机数据集是从次优行为中收集的,没有奖励。由于稀缺的专家数据,这些代理通常会简单地记住较差的轨迹,并且容易受到环境变化的影响,因此缺乏对新环境推广的能力。要自动生成高质量的专家数据并提高代理的概括能力,我们提出了一个名为ffline i的框架,即通过进行反事实推断,并使用c oferfactual数据a u摄量(oilca)。尤其是我们利用可识别的变异自动编码器来生成反事实样本以进行专家数据增强。我们理论上分析了生成的专家数据的影响和概括的改进。此外,我们进行了广泛的实验,以证明我们的方法在两个d eep m ind c introl s uite基准测试基准上的分布性能和c ausal w orld w orld w orld w orld w orld w orld w orld基准的表现显着超过了各种基准。
摘要 - 数据是AI中的重要资产,因为高质量的数据集可以显着提高机器学习模型的性能。在自动驾驶汽车等安全性领域中,离线深度强化学习(Offline DRL)经常用于在预采用的数据集中训练模型,而不是通过与现实世界环境进行互动作为在线DRL来培训这些模型。为了支持这些模型的开发,许多机构可以通过开放源许可公开获得数据集,但是这些数据集有可能滥用或侵权的风险。向数据集注入水印可能会保护数据的知识产权,但是它无法处理已经发布的数据集,并且以后无法更改。其他现有解决方案,例如数据集推理和会员推理,由于不同的模型行为特征和离线设置约束,因此在离线DRL方案中无法正常工作。
摘要 - 离线增强学习(RL)提供了一种有希望的方法,以避免与真实环境的昂贵在线互动。但是,离线RL的性能高度取决于数据集的质量,这可能会导致学习过程中的外推错误。在许多机器人范围内,通常可以使用不准确的模拟器。但是,由于众所周知的探索 - 剥削困境以及不准确的模拟和真实环境之间的动态差距,直接从不准确的模拟器收集的数据不能直接用于离线RL中。为了解决这些问题,我们提出了一种新颖的方法,以更好的方式将离线数据集和不准确的仿真数据组合在一起。具体来说,我们预先训练了生成对抗网络(GAN)模型,以适合离线数据集的状态分布。给出了这一点,我们从发电机提供的分布开始,从不准确的模拟器中收集数据,并使用鉴别器重新重量模拟数据。我们在D4RL基准测试中的实验结果和现实世界中的操纵任务确认,我们的方法可以从不准确的模拟器和有限的离线数据集中受益更多,以比先进的方法获得更好的性能。
本文介绍了一个全面的基准测试套件,该套件是针对离线安全增强学习(RL)挑战的全面的,旨在促进培训和部署阶段中安全学习算法的发展和评估。我们的基准套件包含三个包:1)精心制作的安全政策,2)D4RL风格的数据集以及环境包装器,以及3)高质量的离线安全RL基线实施。我们采用有条不紊的数据收集管道,该管道由先进的安全RL算法启动,该管道有助于从机器人控制到自动驾驶的38个流行的安全RL任务中跨38个流行的安全RL任务的不同数据集的生成。我们进一步引入了一系列数据后处理过滤器,能够修改每个数据集的多样性,从而模拟各种数据收集条件。此外,我们还提供了普遍的离线安全RL算法的优雅且可扩展的实现,以加速该领域的研究。通过超过50000个CPU和800 GPU小时计算的广泛实验,我们评估和比较了这些基线算法在收集的数据集中的性能,从而提供了有关其优势,局限性和潜在改进领域的见解。我们的基准测试框架是研究人员和从业人员的宝贵资源,促进了在安全性应用中开发更健壮和可靠的离线安全RL解决方案。基准网站可在www.offline-saferl.org上找到。
离线增强学习的最新进展(RL)(Levine等人,2020年)使用预采用的数据集为现实世界中的培训政策开辟了可能的可能性(Kalashnikov等人。,2018年; Rafailov等。,2021; Kalashnikov等。,2021),自然语言处理(Jaques等人,2019年),教育(De Lima and Krohling,2021年),电力供应(Zhan等人,2022)和医疗保健(Guez等人,2008年; Shortreed等。,2011年; Wang等。,2018年;基利安等人。,2020)。虽然大多数离线RL研究都集中在单任务问题上,但是在许多实际情况下,多个任务是相关的,并且通过利用所有可用数据共同学习多个任务是有益的(Kalashnikov等人。,2018年; Yu等。,2021,2022; Xie and Finn,2022)。在这种情况下,一种流行的方法是多任务表示学习,该代理的目的是通过在相关任务之间提取共享的低维表示功能来解决问题,然后在此通用表示上使用简单功能(例如线性)来解决每个任务(Caruana,1997; Baxter,2000)。尽管多任务表示学习取得了经验成功,尤其是在增强学习在降低样品复杂性方面的功效方面的实现(Teh等人,2017年; Sodhani等。,2021; Arulkumaran等。,2022),对其的理论理解仍处于早期阶段(Brunskill和Li,2013年; Calandriello等人。,2014年; Arora等。,2020年; Eramo和Al。,2020年;胡和al。,2021; lu和al。,2021; Pacchiano的磨坊,2022年)。虽然
poojamarbade13@gmail.com 6 摘要:大型语言模型 (LLM) 在生成式人工智能 (AI) 工具中的广泛采用引发了人们对用户隐私的重大担忧。为了应对这一挑战,我们提出了 Private ChatGPT,这是一种用于 LLM 的隐私保护模型。它专注于在数据管理和预处理期间保护用户隐私,并确保在训练过程中保留私人上下文。我们使用强化学习 (RL) 整合差异隐私和私人训练,以保护用户隐私同时保持实用性。我们的评估证明了差异隐私在隐私和模型性能之间取得平衡的有效性。关键词:隐私保护、基于 LLM(大型语言模型)、离线人工智能工具、学术、商业、自然语言 1。介绍 大型语言模型 (LLM) 的快速发展彻底改变了各个领域的自然语言生成,包括双体船、内容创作和自动写作。然而,这一进步带来了一个关键问题:用户隐私。LLM 具有强大的分析和生成文本的能力,无意中泄露了有关用户的敏感信息。在本文中,我们解决了基于 LLM 的离线人工智能工具中的隐私保护挑战。我们提出的模型 Priv Chat GPT 旨在在实用性和隐私之间取得微妙的平衡。通过使用强化学习 (RL) 集成差异隐私和私人训练,我们创建了一个强大的框架,既能保护用户数据,又能保持 LLM 的有效性。目的/目标 A.目的 本会议论文的目的是介绍和阐明一种突破性的解决方案,以解决将自然语言生成 (NLG) 技术(特别是大型语言模型 (LLM))的优势与
Oracle零停机时间迁移(ZDM)是Oracle最大可用性体系结构(MAA) - 要求将Oracle数据库迁移到Oracle Cloud的解决方案。ZDM的固有设计牢记迁移过程尽可能直接,以确保对生产工作负载的影响最容易产生影响。要迁移的源数据库可以是本地,部署在Oracle云基础架构上,或者是第3派对云。The Target Database deployment can be in Oracle Autonomous Database or Oracle Exadata Database Service on Dedicated Infrastructure (ExaDB-D) on Oracle Database@Azure, Database Cloud Service on Oracle Cloud Infrastructure (OCI) Virtual Machine, Exadata Cloud Service, Exadata Cloud at Customer, and Autonomous Database.ZDM自动化整个迁移过程,减少了人类错误的机会。ZDM利用Oracle数据库集成的高可用性(HA)技术,例如Oracle Data Guard和Goldengate,并遵循所有MAA最佳实践,以确保没有明显的生产环境停机时间。Oracle ZDM支持物理和逻辑迁移工作流。本技术简介涵盖了逻辑离线迁移工作流程的分步指南。
深层生成模型(DGM)在各个领域都表现出了巨大的成功,尤其是在使用离线数据训练的模型生成文本,图像和视频方面。同样,数据驱动的决策和机器人控制也需要从离线数据中学习发电的功能,以作为策略或政策。在这种情况下,在离线政策学习中应用深层生成模型具有巨大的潜力,并且在这个方向上进行了许多研究。但是,该领域仍然缺乏全面的审查,因此不同分支机构的发展相对独立。在本文中,我们提供了有关深层生成模型用于离线政策学习的应用的首次系统审查。,我们涵盖了五个主流深层生成模型,包括变量自动编码器,生成的对抗网络,正常的流量,变压器和扩散模型,以及它们在离线增强学习(离线RL)和模仿学习(IL)中的应用。离线RL和IL是离线政策学习的两个主要分支,是依次决策的广泛方法。值得注意的是,对于每种基于DGM的离线政策学习,我们根据DGM的使用来提炼其基本方案,CateGo-size相关工作,并在该领域中整理算法的开发过程。在主要内容之后,我们提供了有关深层生成模型和离线政策学习的深入讨论,作为摘要,我们介绍了我们对未来研究方向的观点。1这项工作为离线政策学习深度生成模型的研究进度提供了动手参考,并旨在激发改进基于DGM的离线RL或IL算法的改进。为方便起见,我们在https://github.com/lucascjysdl/dgms-forline-policy-learning上维护纸张列表。