已显示出频率的方法,例如保守Q学习(CQL),对具有重置骨架的训练通才代理人有利。最近的视觉和自然语言处理研究表明,与具有强烈诱导性偏见(例如卷积神经网络和经常性神经网络)相比,基于变压器的模型比例更为有利。在本文中,我们研究了视觉变压器(VIT)的训练单游戏代理的CQL的骨干。在这项工作中,我们通过引入时空注意层来增强基于图像的RL的视觉变压器(VIT)。我们进一步研究了各种嵌入序列凝集方法对VIT性能的影响。总的来说,我们修改的VIT优于单场Atari设置中的标准VIT。
在许多慢性疾病管理和重症监护应用中推荐最佳治疗策略的数据驱动方法越来越兴趣。强化学习方法非常适合这个顺序的决策问题,但必须专门在回顾性病历数据集上进行培训和评估,因为直接在线探索是不安全且不可行的。尽管有这一要求,但绝大多数治疗优化研究都使用了偏离RL方法(例如,在纯粹的离线设置中表现较差的双重深Q网络(DDQN)或其变体)。离线RL的最新进展,例如保守Q学习(CQL),提供了合适的替代方案。,但是在将这些方法调整到现实世界应用中仍然存在挑战,在这些方法中,次优示例主导着回顾性数据集,并且需要满足严格的安全限制。在这项工作中,我们引入了一种实用且理论上的过渡抽样方法,以解决离线RL培训期间的行动失衡。我们对糖尿病和败血症治疗优化的两个现实世界任务进行了广泛的实验,以将所提出的方法的性能与突出的非上线和离线RL基准(DDQN和CQL)进行比较。在一系列有原则和临床相关的指标中,我们表明我们提出的方法可以根据相关的实践和安全指南进行实质性改善。
教育与培训 国土安全部 – 网络安全和基础设施安全局非传统培训补助金 (NTTP) 国家网络安全职业与研究计划 (NICCS) 退伍军人网络安全学徒计划 国防部安全卓越发展中心 (CDSE) 海军部 (DoN) 传统黑人学院和大学 / 少数族裔机构 (HBCU/MI) 计划 STEM 职业 网络军队教育推广计划 (AEOP) - 大学合格领导者 (CQL)* AEOP – 研究与工程学徒计划 (REAP)* 空军研究实验室 (AFRL)/空军科学研究办公室 (AFOSR) 卓越中心 (COE) 计划 空军研究实验室 (AFRL) 学者计划* 空军访问科学家计划 联盟研究员计划 (CRFP)* 国防部 STEM 社区学院联盟 商务部 – 国家标准与技术研究院 地区联盟和多利益相关方伙伴关系以促进 (RAMPS) 网络安全教育和劳动力发展 Cyberseek.org* NICE 会议和博览会* 国家网络安全职业大使计划 网络安全职业周 NICE 框架和资源中心 美国网络游戏* 免费或低成本网络安全资源 网络安全学徒查找器 商务部 - 国家电信和信息管理局 DOC/NTIA:动能网络靶场 教育部 少数族裔科学与工程改进计划 提高标准:引领世界 职业 Z 挑战:为 Z 世代扩大基于工作的学习机会
摘要 - 基于模型的增强学习(RL)由于其样本效率而表现出了巨大的希望,但仍在与长马稀疏的任务中挣扎,尤其是在代理商从固定数据集中学习的离线设置中。我们假设由于缺乏长期计划功能,基于模型的RL代理在这些环境中挣扎,并且在环境的时间抽象模型中进行的计划可以减轻此问题。在本文中,我们做出了两个关键的贡献:1)我们引入了基于离线模型的RL算法IQL-TD-MPC,该算法扩展了模型预测性控制(TD-MPC)的状态时间差异学习(TD-MPC),并使用隐式Q-Gearning(IQL); 2)我们建议将IQL-TD-MPC用作层次设置的经理,并以任何离线离线RL算法作为工人。更具体地说,我们预先训练了一种时间抽象的IQL-TD-MPC管理器,以预测“意图嵌入”,该嵌入方式大致与子目标通过计划。我们表明,通过IQL-TD-MPC经理产生的意图嵌入的增强状态表示,可以显着改善离线脱机RL代理在某些最具挑战性的D4RL基准测试任务上的性能。例如,脱机RL算法AWAC,TD3-BC,DT和CQL均在中和大型抗蚁列任务上获得零或接近零的归一化评估得分,而我们的修改给出了40的平均得分。
有效的混合闭环系统的广泛采用将代表着患有1型糖尿病(T1D)患者的重要里程碑。这些设备通常利用简单的控制算法选择最佳的胰岛素剂量,以将血糖水平保持在健康范围内。在线增强学习(RL)已被用作进一步增强这些设备中葡萄糖控制的方法。以前的方法已显示可降低患者的风险并降低目标范围内所花费的时间,但在学习过程中容易出现不稳定性,通常会导致选择不安全的动作。这项工作提供了对离线RL的评估,用于制定有效的给药政策,而无需在培训期间进行潜在危险的患者互动。本文研究了BCQ,CQL和TD3-BC在管理FDA批准的UVA/Padova葡萄糖动力学模拟器中可用的30名虚拟患者的血糖中的实用性。接受在线RL以实现稳定性能所需的总培训样本的十分之一的培训时,这项工作表明,离线RL可以大大增加健康血糖的时间范围为61。6±0。3%至65。3±0。与最先进的基线相比5%(𝑝<0。001)。这是在低血糖事件中没有任何相关增加的情况下实现的。离线RL也被证明能够纠正常见和具有挑战性的控制场景,例如不正确的推注剂量,不规则的进餐时间和压缩误差。这项工作的代码可在以下网址提供:https://github.com/hemerson1/offline-glucose。
1。家乐福集团的生物多样性战略2 1.1背景和生物多样性问题2 1.2。家乐福集团的生物多样性野心6 1.3。目标7 1.4。负责的大厅8 1.5。小组组织9 1.6。薪酬标准和绩效分析12 2。识别依赖性,风险和影响17 2.1。家乐福的生物多样性足迹17上下文和问题17双重物质分析17映射对自然的影响17对家乐福依赖性的定性分析18 SBTN和IVC方法论19 2.2。法国商店的生物多样性影响21 21 2.3。家乐福的生物多样性影响法国22 2.4的地点。与生物多样性相关的风险和家乐福的机会24 3。家乐福集团保护生物多样性25 3.1的行动计划。促进负责任的消费和可持续农业26背景和问题26促进负责任的消费26开发有机报价,并确保所有29个通过倒数质量线(CQL)促进农业生态学的所有29均可融资33融资食品过渡36 3.2。保护生物多样性在敏感原材料的供应中37背景和问题37打击森林砍伐41促进负责任的捕鱼和水产养殖46开发更多负责任的纺织部门49 3.3。防止不同类型的污染对生物多样性的影响52 3.4。限制了我们站点对生物多样性的影响54 3.5。确保负责任的用水55
广泛采用有效的混合闭合环系统将为患有1型糖尿病(T1D)的人提供重要的护理里程碑。这些设备通常利用简单的控制算法选择最佳的胰岛素剂量,以将血糖水平保持在健康范围内。在线增强学习(RL)已被用作进一步增强这些设备中葡萄糖控制的方法。与经典的对照算法相比,先前的方法已被证明可以降低患者的风险和降低焦油范围的时间,但在学习过程中容易出现不稳定性,通常会导致选择不安全的动作。这项工作介绍了对o ffl iNe rl的评估,用于制定施用剂量政策,而无需在训练过程中进行潜在危险的患者互动。本文研究了BCQ,CQL和TD3-BC在管理FDA批准的UVA/Padova葡萄糖动力学模拟器中可用的30名虚拟患者的血糖中的实用性。接受在线RL以实现稳定性能所需的总培训样本的十分之一的培训时,这项工作表明,在健康的血糖范围内,OfflIne rl可以显着增加61个。6±0。3%至65。3±0。与最先进的基线相比5%(p <0。 001)。 这是在低血糖事件中没有任何相关增加的情况下实现的。 o rl也证明能够纠正与最先进的基线相比5%(p <0。001)。这是在低血糖事件中没有任何相关增加的情况下实现的。o rl也证明能够纠正