摘要:中国拟建的超级金牛座神灯装置(STCF)是新一代正负电子对撞机,质心能量为2~7 GeV,峰值亮度为0.5×1035cm−2s−1。开发了STCF离线软件(OSCAR),支持离线数据处理,包括探测器仿真、重建、刻度以及物理分析。针对STCF的具体要求,OSCAR基于HEP实验轻量级通用软件SNiPER框架进行设计和开发。除了常用的 Geant4 和 ROOT 软件外,OSCAR 还采用了 HEP 社区中一些最先进的软件包和工具,例如探测器描述工具包 (DD4hep)、普通旧数据 I / O (podio) 和英特尔线程构建模块 (TBB) 等。本文将介绍 OSCAR 的总体设计和一些实现细节,包括事件数据管理、基于 SNiPER 和 TBB 的并行数据处理以及基于 DD4hep 的几何管理系统。目前,OSCAR 已全面投入使用,以促进 STCF 探测器的概念设计和其物理潜力的研究。
已显示出频率的方法,例如保守Q学习(CQL),对具有重置骨架的训练通才代理人有利。最近的视觉和自然语言处理研究表明,与具有强烈诱导性偏见(例如卷积神经网络和经常性神经网络)相比,基于变压器的模型比例更为有利。在本文中,我们研究了视觉变压器(VIT)的训练单游戏代理的CQL的骨干。在这项工作中,我们通过引入时空注意层来增强基于图像的RL的视觉变压器(VIT)。我们进一步研究了各种嵌入序列凝集方法对VIT性能的影响。总的来说,我们修改的VIT优于单场Atari设置中的标准VIT。
摘要 - 数据是AI中的重要资产,因为高质量的数据集可以显着提高机器学习模型的性能。在自动驾驶汽车等安全性领域中,离线深度强化学习(Offline DRL)经常用于在预采用的数据集中训练模型,而不是通过与现实世界环境进行互动作为在线DRL来培训这些模型。为了支持这些模型的开发,许多机构可以通过开放源许可公开获得数据集,但是这些数据集有可能滥用或侵权的风险。向数据集注入水印可能会保护数据的知识产权,但是它无法处理已经发布的数据集,并且以后无法更改。其他现有解决方案,例如数据集推理和会员推理,由于不同的模型行为特征和离线设置约束,因此在离线DRL方案中无法正常工作。
在许多慢性疾病管理和重症监护应用中推荐最佳治疗策略的数据驱动方法越来越兴趣。强化学习方法非常适合这个顺序的决策问题,但必须专门在回顾性病历数据集上进行培训和评估,因为直接在线探索是不安全且不可行的。尽管有这一要求,但绝大多数治疗优化研究都使用了偏离RL方法(例如,在纯粹的离线设置中表现较差的双重深Q网络(DDQN)或其变体)。离线RL的最新进展,例如保守Q学习(CQL),提供了合适的替代方案。,但是在将这些方法调整到现实世界应用中仍然存在挑战,在这些方法中,次优示例主导着回顾性数据集,并且需要满足严格的安全限制。在这项工作中,我们引入了一种实用且理论上的过渡抽样方法,以解决离线RL培训期间的行动失衡。我们对糖尿病和败血症治疗优化的两个现实世界任务进行了广泛的实验,以将所提出的方法的性能与突出的非上线和离线RL基准(DDQN和CQL)进行比较。在一系列有原则和临床相关的指标中,我们表明我们提出的方法可以根据相关的实践和安全指南进行实质性改善。
广泛采用有效的混合闭合环系统将为患有1型糖尿病(T1D)的人提供重要的护理里程碑。这些设备通常利用简单的控制算法选择最佳的胰岛素剂量,以将血糖水平保持在健康范围内。在线增强学习(RL)已被用作进一步增强这些设备中葡萄糖控制的方法。与经典的对照算法相比,先前的方法已被证明可以降低患者的风险和降低焦油范围的时间,但在学习过程中容易出现不稳定性,通常会导致选择不安全的动作。这项工作介绍了对o ffl iNe rl的评估,用于制定施用剂量政策,而无需在训练过程中进行潜在危险的患者互动。本文研究了BCQ,CQL和TD3-BC在管理FDA批准的UVA/Padova葡萄糖动力学模拟器中可用的30名虚拟患者的血糖中的实用性。接受在线RL以实现稳定性能所需的总培训样本的十分之一的培训时,这项工作表明,在健康的血糖范围内,OfflIne rl可以显着增加61个。6±0。3%至65。3±0。与最先进的基线相比5%(p <0。 001)。 这是在低血糖事件中没有任何相关增加的情况下实现的。 o rl也证明能够纠正与最先进的基线相比5%(p <0。001)。这是在低血糖事件中没有任何相关增加的情况下实现的。o rl也证明能够纠正
深脑刺激(DBS)通过将电脉冲传递到大脑的基底神经节(BG)区域来治疗由帕金森氏病(PD)引起的运动症状的巨大希望。但是,美国食品药品监督管理局(FDA)批准的DBS设备只能以固定幅度提供连续的DBS(CDB)刺激;这种效率低下的操作可降低设备的电池寿命,无法动态地适应活动,并且可能引起严重的副作用(例如步态障碍)。在这项工作中,我们引入了一个离线增强学习(RL)框架,允许使用过去的临床数据来训练RL政策以实时调整刺激幅度,目的是减少能源利用,同时保持相同的治疗水平(即,控制)功效为CDB。此外,临床原型要求在患者部署之前证明此类RL控制器的安全性和性能。因此,我们还引入了一种离线政策评估(OPE)方法,以在对患者进行部署之前使用历史数据估算RL政策的性能。我们对配备RC+S DBS系统的四名PD患者进行了评估,在每月临床就诊期间采用RL控制器,并通过症状严重程度评估了整体控制功效(即,Bradykinesia和Tremor),PD生物制造商的变化(即,本地现场电位)和患者评分。临床实验的结果表明,我们的基于RL的控制器保持与CDB相同的控制功效水平,但刺激能量显着降低。此外,OPE方法在准确估算和对RL控制器的预期回报方面有效。
逐点集中是计算每个状态-动作对的置信区间的标准技术 [Azar 等人,2017 年;Liu 等人,2021 年;Xie 等人,2021b 年;Cui 和 Du,2022 年]。然而,由于 NE 可以是混合策略,因此对 MARL 的直接扩展会受到多智能体诅咒的影响。与逐点集中技术不同,策略集中直接估计每个策略,这允许更严格的置信区间,从而避免对联合动作空间的依赖。我们在第 1.2 节中给出了技术概述。此外,我们表明策略置信界限始终是一个凸函数,因此经验最佳响应策略始终可以是确定性策略,这对计算效率至关重要。
奖励动机通过中脑边缘系统、海马和皮质系统之间的相互作用(编码期间和编码后)来增强记忆。这些分布式神经回路的发展变化可能导致奖励动机记忆和潜在神经机制的年龄相关差异。跨物种研究的综合证据表明,青春期皮质下多巴胺信号增加,这可能导致奖励事件的记忆表征比平凡事件更强,以及潜在皮质下和皮质大脑机制的贡献随年龄变化而变化。在这里,我们使用 fMRI 来检查奖励动机如何影响支持两性人类参与者从童年到成年的长期联想记忆的“在线”编码和“离线”编码后大脑机制。我们发现,奖励动机导致 24 小时后联想记忆的年龄不变增强和非线性年龄相关差异。此外,奖励相关的记忆益处与年龄变化的神经机制有关。在编码过程中,随着年龄的增长,前额皮质 (PFC) 和腹侧被盖区 (VTA) 之间的相互作用与更好的高奖励记忆的关联性会更大。编码前到编码后,前海马和 VTA 之间的功能连接变化也与更好的高奖励记忆有关,但在年轻时更是如此。我们的研究结果表明,支持奖励动机记忆的离线皮层下和在线皮层大脑机制的贡献可能存在发育差异。
摘要在这项工作中,我们在t = 2 k的温度下实验研究了电应力对P型硅MOSFET中单孔传输性能的可调性的影响。这是通过从三个基于疾病的量子量表中的频道 - 氧化物界面上的三个基于疾病的量子点监测的库仑块来实现的,这些氧化通道界面缺乏可调性,这些点缺乏可调节性,因为这些点缺乏其稳定性。我们的发现表明,当在-4 V和-4.6 V之间施加栅极偏置时,附近的电荷捕获会增强库仑阻滞,从而导致更强的量子点限制,在执行热周期后,可以将其逆转为初始设备状况。重新施加应力产生了可预测的响应量子点充电特性的可再现变化,并且观察到一致的充电能量增加到≈50%。我们达到了-4.6 V的门偏置上方的阈值,由于设备降解作为大规模陷阱的产物,因此性能和稳定性降低。结果不仅将压力作为一种有效的技术来增强和重置充电性能,而且还提供了有关如何利用标准工业硅设备用于单一电荷运输应用的洞察力。
