扩散模型在增强学习(RL)方面具有广泛的关注(RL),以表现出强大的表现力和多模式。已经证实,利用扩散策略可以通过克服非峰政策(例如高斯政策)的局限性来显着改善RL算法在连续控制任务中的性能。此外,扩散策略的多模式性还表明了为代理提供增强的勘探能力的潜力。但是,现有的作品主要集中于在离线RL中应用扩散政策,而将其纳入在线RL中的研究较少。由于“良好”样本(动作)不可用,因此无法直接应用于在线RL中的扩散模型的训练目标,称为变异下限。为了将扩散模型与在线RL协调,我们提出了一种基于无模型扩散的新型在线RL算法,称为Q-PRIATION策略优化(QVPO)。具体来说,我们在实践中介绍了Q加权变分损失及其近似实施。值得注意的是,这种损失被证明是政策目标的紧密下限。为了进一步增强扩散策略的勘探能力,我们设计了一个特殊的熵正规化项。与高斯政策不同,扩散政策中的对数可能是无法访问的。因此,此熵项是不平凡的。此外,为了减少扩散政策的巨大差异,我们还通过行动选择制定了有效的行为政策。这可以进一步提高在线交互期间的样本效率。因此,QVPO算法利用了扩散策略的探索能力和多模式,从而阻止了RL代理融合到亚最佳策略。为了验证QVPO的有效性,我们对Mujoco连续控制基准进行了综合实验。最终结果表明,QVPO在累积奖励和样本效率方面都可以达到最先进的表现。我们的官方实施在https://github.com/wadx2019/qvpo/中发布。
肖格尔上尉出生于华盛顿州伦顿,1998 年毕业于华盛顿大学,获得工业工程理学学士学位。1998 年,她在西雅图华盛顿大学海军预备役军官训练团加入美国海军。她在佛罗里达州彭萨科拉参加飞行训练,并于 2000 年被任命为弗吉尼亚州诺福克舰载机载预警中队 (VAW) 120 的海军飞行军官 (NFO)。她的第一项任务是在加利福尼亚州穆古角的舰载机载预警中队 (VAW) 117 Wallbangers,在那里她被部署在卡尔文森号航空母舰 (CVN 70) 上,以支持持久自由行动,担任中尉和助理航空师军官。此外,肖格还被部署在尼米兹号航空母舰(CVN 68)上,担任电子战官、战术官、NFO 训练官和质量保证官,支持伊拉克自由行动。
2024 年 2 月 1 日 — 您不在订单协商窗口内。但是,符合 DMEI 资格的 Sailo 可以在其订单协商窗口之外提交申请。
摘要 目的——对数据分析和人工智能 (AI) 系统的可解释性和可解释性的研究正在兴起。然而,最近的大多数研究要么仅仅宣传可解释性的好处,要么批评它会产生适得其反的效果。本研究针对这一两极分化的领域,旨在确定人工智能可解释性的对立影响及其之间的紧张关系,并提出如何管理这种紧张关系以优化人工智能系统的性能和可信度。 设计/方法/方法——作者系统地回顾文献,并使用权变理论的视角对其进行综合,以开发一个管理人工智能可解释性对立影响的框架。 发现——作者发现了可解释性的五个对立影响:可理解性、行为、保密性、完整性和对人工智能的信心 (5C)。作者还提出了管理 5C 之间紧张关系的六个观点:解释的实用主义、解释的情境化、人类机构和人工智能机构的共存、指标和标准化、监管和道德原则以及其他新兴解决方案(即人工智能封装、区块链和人工智能模糊系统)。研究局限性/含义——与其他系统文献综述研究一样,结果受到所选论文内容的限制。 实际意义——研究结果表明,人工智能所有者和开发者如何通过可见性、问责制和维护人工智能的“社会利益”来管理盈利能力、预测准确性和系统性能之间的紧张关系。研究结果指导从业者以人工智能操作的背景为重点,制定人工智能可解释性的指标和标准。 原创性/价值——本研究探讨了学者和从业者对人工智能可解释性的好处与其适得其反的影响的两极化看法。它提出,没有单一的最佳方法来最大化人工智能的可解释性。相反,必须管理促成效应和制约效应的共存。 关键词 权变理论、系统文献综述、可解释人工智能、可解释分析、缓解策略、相反影响 论文类型 研究论文
自 2020 年 1 月 1 日起,华盛顿 Molina Healthcare 的事先授权要求将针对 CPT 代码 90675(狂犬病疫苗,肌肉注射)、90691(伤寒疫苗,Vi 荚膜多糖 (ViCPs),肌肉注射)和 90717(黄热病活疫苗,皮下注射)进行更改。此更改会影响 Apple Health(医疗补助)会员,但不适用于 Marketplace 会员。