摘要:中国拟建的超级金牛座神灯装置(STCF)是新一代正负电子对撞机,质心能量为2~7 GeV,峰值亮度为0.5×1035cm−2s−1。开发了STCF离线软件(OSCAR),支持离线数据处理,包括探测器仿真、重建、刻度以及物理分析。针对STCF的具体要求,OSCAR基于HEP实验轻量级通用软件SNiPER框架进行设计和开发。除了常用的 Geant4 和 ROOT 软件外,OSCAR 还采用了 HEP 社区中一些最先进的软件包和工具,例如探测器描述工具包 (DD4hep)、普通旧数据 I / O (podio) 和英特尔线程构建模块 (TBB) 等。本文将介绍 OSCAR 的总体设计和一些实现细节,包括事件数据管理、基于 SNiPER 和 TBB 的并行数据处理以及基于 DD4hep 的几何管理系统。目前,OSCAR 已全面投入使用,以促进 STCF 探测器的概念设计和其物理潜力的研究。
Oracle零停机时间迁移(ZDM)是Oracle最大可用性体系结构(MAA) - 要求将Oracle数据库迁移到Oracle Cloud的解决方案。ZDM的固有设计牢记迁移过程尽可能直接,以确保对生产工作负载的影响最容易产生影响。要迁移的源数据库可以是本地,部署在Oracle云基础架构上,或者是第3派对云。The Target Database deployment can be in Oracle Autonomous Database or Oracle Exadata Database Service on Dedicated Infrastructure (ExaDB-D) on Oracle Database@Azure, Database Cloud Service on Oracle Cloud Infrastructure (OCI) Virtual Machine, Exadata Cloud Service, Exadata Cloud at Customer, and Autonomous Database.ZDM自动化整个迁移过程,减少了人类错误的机会。ZDM利用Oracle数据库集成的高可用性(HA)技术,例如Oracle Data Guard和Goldengate,并遵循所有MAA最佳实践,以确保没有明显的生产环境停机时间。Oracle ZDM支持物理和逻辑迁移工作流。本技术简介涵盖了逻辑离线迁移工作流程的分步指南。
离线增强学习(RL)专注于仅从一批先前收集的数据中学习政策。有可能有效利用此类数据集的潜力,而无需进行昂贵或冒险的主动探索。虽然最近的离线多代理RL(MARL)的最新进展表现出了承诺,但大多数现有方法依赖于所有代理商共同收集的大型数据集,或者是独立收集的特定于特定于代理的数据集。前者的方法确保了强大的性能,但提出了可扩展性的问题,而后者则强调可伸缩性以牺牲性能保证为代价。在这项工作中,我们为数据集收集和离线学习提出了一个新颖的可扩展程序。代理首先通过预先指定的信息共享网络一致地收集了不同的数据集,随后学习了连贯的局限性策略,而无需完全可观察到或倒退以完全分散。从理论上讲,这种结构化方法允许精确拟合的Q-材料(FQI)算法[7]的多代理扩展,以高可能性地汇聚到全球范围内,以降至ϵ-Optimal策略。收敛性受到依赖共享信息信息性的错误术语。此外,我们还展示了这种方法如何将FQI监督学习阶段的固有错误与共享信息和未共享信息之间的共同信息绑定。我们的算法,可扩展的多代理FQI(SCAM-FQI),然后在分布式决策问题上评估。经验结果与我们的理论发现一致,这支持了Scam-FQI在达到可伸缩性和政策绩效之间取得平衡的有效性。
摘要 - 预言学习(RL)已被证明在未来的智能无线网络中起着有希望的作用。在线RL已用于无线电资源管理(RRM),接管了传统计划。但是,由于依靠与环境的在线互动,其作用在在线互动不可行的实际,现实世界中受到限制。此外,在现实世界随机环境中的不确定性和风险面前,传统的RL在不确定性和风险面前处于短缺状态。以这种方式,我们为RRM问题提出了一个离线和分配RL方案,可以使用静态数据集启用离线培训,而无需与环境相互作用,并使用退货的分布来考虑不确定性的来源。仿真结果表明,所提出的方案的表现优于常规资源管理模型。此外,这是唯一超过在线RL的方案,比在线RL增长10%。索引术语 - 分布强化学习,离线强化学习,无线电资源管理
(OCT) 图像,一些研究成功地使用 AI 来检测单一疾病表现的存在,例如视网膜内积液的存在、视网膜黄斑硬化症的存在或黄斑液的量化。2–4 该领域的一种可能的 AI 应用是为居住在缺乏眼科医生或训练有素的验光师的地区患者提供筛查和诊断帮助。然而,现代网络包含数百万个学习到的连接。总的趋势是设计更深、更复杂的网络以实现更高的准确性。这些人工智能程序通常需要高科技和昂贵的计算机系统,其中包含先进的图形处理单元,而这些单元通常是医疗保健不足或低收入地区的公用事业所负担不起的。在这种情况下,基于智能手机的高精度、低设备要求的移动人工智能系统极其重要和有用。智能手机应用程序 (app) 和移动机器人通常只需要较低的内存和能耗。5 因此,开发了一种高效的网络架构 MobileNet,以满足移动和嵌入式视觉应用程序的设计要求。更小更快的模型使用宽度乘数和分辨率乘数,以合理的精度来减少尺寸和延迟。与其他模型相比,使用 MobileNets 的程序表现出优越的尺寸、速度和精度特性。6
摘要虽然模仿学习需要访问高质量的数据,但原则上应以类似或更好的方式在数据质量下进行类似或更好的表现。但是,当前的结果表明,离线RL的性能通常比模仿学习差,而且通常不清楚是什么避免了离线RL的表现。在这项工作中,我们旨在了解当前离线RL算法中的瓶颈。虽然离线RL的表现较差通常是在不完美的价值函数上表现出来,但我们还是问:在学习价值函数,策略或其他内容时,离线RL的主要瓶颈确实是真正的瓶颈吗?为了回答这个问题,我们对(1)价值学习,(2)策略提取和(3)脱机RL问题的策略概括从每个组件的“数据尺度”属性中分析,分析了这些组件如何影响性能。我们进行了两个令人惊讶的观察。首先,选择性提取算法的选择会影响离线rl Sigig的性能和可伸缩性,通常比其基本价值学习目标更重要。例如,广泛使用的价值加权回归目标(例如AWR)无法完全利用学习的价值函数,并且切换到行为调节的策略梯度目标(例如DDPG+BC)通常会导致性能和缩放行为的实质性改善。其次,离线RL的次优性能通常是由于对培训数据的支持,而不是分布状态的策略准确性。虽然大多数当前的离线RL算法并未明确解决此问题,但我们表明,使用次优的但高覆盖范围的数据或即时的策略提取技术可以有效解决实践中的策略概括问题。
本文提出了一种使用增强和虚拟现实技术的机器人教学方法。机器人教学对于机器人完成工业生产的几项任务至关重要。尽管有各种方法可以执行机器人操纵的运动计划,但仍需要机器人教学才能进行精确和可靠性。在线教学,其中物理机器人在真实空间中移动以获得所需的运动,并且由于其易于性和可靠性而被广泛执行。但是,需要实际的机器人移动。相比之下,可以在计算空间中完全实现局部教学,并且需要将机器人的周围构造为计算机图形模型。此外,planar显示器不提供3D场景上的精通信息。我们提出的方法可以作为频道教学的使用,但是操作员可以使用头部安装的设备和虚拟3D空间中的指定控制器来直观地操纵机器人。我们通过增强和虚拟现实技术展示了机器人教学的两种方法,并显示了一些实验结果。
强化学习(RL) - 找到最大化所收集的长期累积奖励的操作行为(也称为策略),这是机器学习中最有影响力的机器学习中的最大影响之一。在几个决定性问题中,人们面临政策转换的可能性(从车道政策变为新政策),这会损害不容易忽略的成本,而在决定中,人们可以使用历史数据,而没有可用的数据,而无需进行进一步的在线互动。尽管这是最重要的,但据我们所知,这很重要,但几乎没有努力解决以一种灵活和原则性的方式解决收益和转换成本之间的关键问题。利用最佳运输领域的思想,我们将系统转换的系统研究局限于局部的RL。我们建立了基本属性,并为拟议的新型切换公式设计了净活动界算法。数字实验证明了我们的方法在体育馆的多个机器人控制基准和SUMO-RL的光照控制上的效率。
离线增强学习(RL)的最新进步强调了条件序列建模(CSM)的功能,该范例是一种基于历史轨迹和目标返回的范式,该范式学习了动作分布。然而,由于单个轨迹内的采样回报之间的不一致和在多个轨迹之间的最佳回报之间的不一致,这些方法通常与将最佳轨迹缝合在一起的最佳轨迹拼接在一起。幸运的是,动态编程方法(DP)方法通过利用价值函数来近似每个状态的最佳未来回报,提供解决方案,而这些技术容易出现不稳定的学习行为,尤其是在长期和稀疏回报的情况下。在这些见解的基础上,我们提出了Q值重新授权的变压器(QT),该变压器(QT)结合了变压器的轨迹建模能力与DP方法的最佳未来回报的可预测性。QT学习一个动作值函数,并将最大化行动值的术语整合到CSM的培训损失中,该损失旨在寻求与行为政策紧密相符的最佳动作。对D4RL基准数据集的经验评估证明了QT优于传统的DP和CSM方法,这突出了QT在离线RL中增强最新艺术的潜力。
离线增强学习(RL)旨在根据历史数据改善目标政策而不是行为政策。离线RL的一个主要问题是分配转移导致Q值估计的分布转移。大多数现有的作品都集中在行为克隆(BC)或最大化Q学习方法以抑制分布转移。BC方法试图通过将目标策略限制为离线数据来减轻转移,但它使学习的策略高度保守。另一方面,最大化Q学习方法采用悲观的机制来通过根据动作的不确定性来最大化Q值和惩罚Q值来产生动作。但是,生成的措施可能是算法的,从而导致预测的Q值高度不确定,这反过来又将误导该策略以生成下一个动作。为了减轻分配转移的不利影响,我们建议通过统一Q学习和行为克隆以应对探索和剥削难题来隐含和明确地限制政策。对于隐式约束方法,我们建议通过致力于使目标策略和行为策略的行动无法区分的生成对抗网络统一行动空间。对于显式约束方法,我们会提出多重重要性采样(MIS),以了解每个状态行动对的优势权重,然后将其用于抑制或充分使用每个状态行动对。D4RL数据集上的广泛实验表明,我们的方法可以实现出色的性能。MAZE2D数据上的结果表明,MIS与单个重要性采样更好地解决了异质数据。我们还发现MIS可以有效地稳定奖励曲线。关键字:Q学习,行为克隆,悲观机制,多重重要性采样。