用夹紧的量子玻尔兹曼机器(QBM)的抽象自由能增强学习(FERL)被证明与经典Q学习及其限制相比,可以显着提高学习效率。在本文中,FERL方法扩展到多维连续的状态行动空间环境,以打开更广泛的现实应用程序的门。首先,研究了基于自由能的Q-学习,以用于离散的作用空间,但是评估了连续状态空间以及经验重播对样本效率的影响。在第二步中,基于深层确定性的策略梯度算法与基于QBM的评论家相结合的深层确定性政策梯度算法开发了连续国家行动空间的混合参与者(A-C)方案。讨论了使用量子退火(QA)获得的结果,包括模拟和D-Wave QA硬件,并将性能与经典的增强学习方法进行了比较。在欧洲核研究组织中,整个环境代表了现有的粒子加速器光束线。除其他外,在高级韦克菲尔德实验的实际电子束线(醒)上评估了混合A-C代理。
摘要本文展示了将自主网络防御应用于工业控制系统上的潜力,并提供了一个基线环境,以进一步探索多代理强化学习(MARL)对此问题领域的应用。它引入了通用集成平台管理系统(IPMS)的模拟环境,IPMSRL,并探讨了MARL对基于通用海事的IPMS Operational Technology(OT)的自动网络防御决策的使用。网络防御行动不如企业对IT的成熟。 这是由于OT基础架构的相对“脆性”性质源于使用传统系统,设计时间工程假设以及缺乏全面的现代安全控制。 ,由于不断增加网络攻击的复杂性以及传统以IT中心的网络防御解决方案的局限性,在网络景观中有许多障碍。 传统的IT控件很少在OT基础架构上部署,并且在它们的位置,某些威胁尚未完全解决。 在我们的实验中,多代理近端策略优化(MAPPO)的共享评论家实施优于独立近端策略优化(IPPO)。 Mappo达到了800K时间段之后的最佳政策(情节结果平均值),而IPPO只能达到一百万个时间段的情节结果平均值为0.966。 超参数调整大大改善了训练性能。网络防御行动不如企业对IT的成熟。这是由于OT基础架构的相对“脆性”性质源于使用传统系统,设计时间工程假设以及缺乏全面的现代安全控制。,由于不断增加网络攻击的复杂性以及传统以IT中心的网络防御解决方案的局限性,在网络景观中有许多障碍。传统的IT控件很少在OT基础架构上部署,并且在它们的位置,某些威胁尚未完全解决。在我们的实验中,多代理近端策略优化(MAPPO)的共享评论家实施优于独立近端策略优化(IPPO)。Mappo达到了800K时间段之后的最佳政策(情节结果平均值),而IPPO只能达到一百万个时间段的情节结果平均值为0.966。超参数调整大大改善了训练性能。在一百万个时间段中,调整后的超参数达到了最佳策略,而默认的超参数只能偶尔赢得胜利,大多数模拟导致抽签。我们测试了现实世界中的约束,攻击检测警报成功,并发现当警报成功概率降低到0.75或0.9时,MARL Defenders仍然能够分别在97.5%或99.5%的情节中获胜。
在 Jean-Loup Passek 奖的角逐中,MDOC 选出了 32 部纪录片,这些纪录片反映了作者对与身份、记忆和边界有关的社会、个人和文化问题的看法。官方评审团由巴斯克大学纪录片教授 Aida Vallejo、波兰西里西亚大学电影与戏剧艺术学院院长兼基耶斯洛夫斯基电影学院教授 Anna Huth、葡萄牙天主教大学电影评论家兼 Escola das Artes (EA) 电影教师 Carlos Natálio、墨西哥导演兼加州艺术学院 (Cal Arts) 教授 Juan Pablo Gonzalez 和欧洲纪录片协会 (DAE) 联合主任 Marion Schmidt 组成。这些电影也是国际电影俱乐部联合会 FICC 颁发的 D. 吉诃德奖的候选影片,该奖提名的评审团由 FICC/IFFS 成员 Manuela Lucchesu(意大利)、Plano Extraordinário – Tomar 电影俱乐部主席 Margarida Mateus(葡萄牙)和卡里姆纳加尔电影协会 (KAFISO) 记者兼主席 Ponnam Ravichandra(印度)组成。
起诉正式担任总统。总统决定的正常运行可能允许在总统任期后的豁免权。,例如,必须与外国进行谈判以让美国人质去的总统;那个国家后来袭击了其他美国人。一位恶毒的评论家说:“总统应该只是炸毁外国人,而不是谈判。因此,总统是叛徒,必须被起诉!”但是,总统的行动可能体现了总统在其广泛的酌处权中的行动,因此不可行但是,作为一个荒谬的简化:如果总统也给外国土地上了一系列核武器,并说:“嘿,请用这些炸毁美国!”,他很可能会被起诉 - 甚至在办公室里,即使是在办公室?在这一说明中:尽管法院即将发表的意见可以确认是否存在合理官方行为的免疫力,但它也可以确认,对于完全不合理的行为(例如,要求外国人要求外国人谋杀无辜的美国人),或作为竞选竞选的一部分(例如2021年1月6日,即将与之相关的行为,例如,trains for talk traff threans teal hand Mike sike pers of tak Mike persece ins of take,免疫将不存在。
摘要 - Quantum机器学习(QML)作为量子计算与机器学习(ML)的组合是探索的诺言方向,尤其是由于实现量子计算机的进步和所希望的量子优势。QML中几乎没有接近的领域是量子多代理增强学习(QMARL),尽管证明对解决工业管理,例如工厂管理,蜂窝访问和移动性合作有可能具有吸引力。本文提出了一种空中通信的用例,并引入了杂种量子古典(HQC)ML算法来解决它。此用例旨在提高飞行临时网络的连接性,并通过HQC多代理近端策略优化算法来解决,其中集中评论家的核心被数据重新上传变异量子电路所取代。结果表明,相对于可比的经典算法,早期达到收敛性以及这种解决方案的可伸缩性的性能略有提高:ANSATZ的大小增加,从而增加了可训练的参数的数量,从而导致了更好的现象。这些有希望的结果表明,Qmarl对与工业相关的复杂用例的潜力。索引术语 - Quantum Computing,多代理增强学习,交流,网络
ga 30332-0355(404)3385-4653,乔治亚州理工学院790大西洋大道亚特兰大,jingfeng.wang@ce.gatech.gatech.gate.gate.gate.gate.gate.edu任命任命副教授(任期),乔治·科技研究所 - 乔治·科技研究所 - 乔治学院,2018澳大利亚大学,2016年,乔治亚州理工学院2016年首席研究工程师2011年 - 2012年加利福尼亚大学欧文分校助理研究员,2009年 - 2011年马萨诸塞州马萨诸塞州理工学院研究助理2000-2009- 2000年 - 马萨诸塞州马萨诸塞州科技研究所,1997 - 2000年,2000年,马萨诸塞州技术研究所 - 1991年,技术助理学院 - 1991年 - 1991年 - 1991年 - 1991年 - 1991年。 1997年北京大学,计算流体力学M.Sc.,1987年7月,北京大学,理论和应用机制学士学位,1984年6月,荣誉和奖项AGU AGU编辑在针对地球和太空科学的卓越指导地球和太空科学方面的引用,2020年AGU的杰出评论家,2018年沃伦·沃伦·沃伦·沃伦·斯特鲁尔,2018年沃伦·斯特鲁尔,2018年澳大利亚大学,澳大利亚大学,2018年访问者。出版物1。 Jing,W。和J. Wang(2023),太阳辐射强迫的表面温度动力学,ga 30332-0355(404)3385-4653,乔治亚州理工学院790大西洋大道亚特兰大,jingfeng.wang@ce.gatech.gatech.gate.gate.gate.gate.gate.edu任命任命副教授(任期),乔治·科技研究所 - 乔治·科技研究所 - 乔治学院,2018澳大利亚大学,2016年,乔治亚州理工学院2016年首席研究工程师2011年 - 2012年加利福尼亚大学欧文分校助理研究员,2009年 - 2011年马萨诸塞州马萨诸塞州理工学院研究助理2000-2009- 2000年 - 马萨诸塞州马萨诸塞州科技研究所,1997 - 2000年,2000年,马萨诸塞州技术研究所 - 1991年,技术助理学院 - 1991年 - 1991年 - 1991年 - 1991年 - 1991年。 1997年北京大学,计算流体力学M.Sc.,1987年7月,北京大学,理论和应用机制学士学位,1984年6月,荣誉和奖项AGU AGU编辑在针对地球和太空科学的卓越指导地球和太空科学方面的引用,2020年AGU的杰出评论家,2018年沃伦·沃伦·沃伦·沃伦·斯特鲁尔,2018年沃伦·斯特鲁尔,2018年澳大利亚大学,澳大利亚大学,2018年访问者。出版物1。Jing,W。和J. Wang(2023),太阳辐射强迫的表面温度动力学,
参数偏微分方程 (PDE) 的最优控制在工程和科学领域的许多应用中都至关重要。近年来,科学机器学习的进步为参数偏微分方程的控制开辟了新的领域。特别是,深度强化学习 (DRL) 有可能在各种应用中解决高维和复杂的控制问题。大多数 DRL 方法依赖于深度神经网络 (DNN) 控制策略。然而,对于许多动态系统,基于 DNN 的控制策略往往过度参数化,这意味着它们需要大量的训练数据、表现出有限的鲁棒性并且缺乏可解释性。在这项工作中,我们利用字典学习和可微分 L 0 正则化来学习参数偏微分方程的稀疏、鲁棒和可解释的控制策略。我们的稀疏策略架构与 DRL 方法无关,可以在不同的策略梯度和参与者-评论家 DRL 算法中使用,而无需改变其策略优化程序。我们在控制参数化 Kuramoto-Sivashinsky 和对流-扩散-反应 PDE 的挑战性任务上测试了我们的方法。我们表明,我们的方法 (1) 优于基于 DNN 的基准 DRL 策略,(2) 允许推导所学最优控制律的可解释方程,以及 (3) 推广到 PDE 的未知参数而无需重新训练策略。
经济学家们总是对机器为我们所做的事感到不安。一方面,机器是推动资本主义经济的投资的体现。另一方面,大多数时候,当一台机器进入时,工人就会离开——有时是许多工人。经济学家们一直认为,一台机器可能会取代一些工人,但最终,他们坚持认为,生产力将大大提高,从而提高国民收入。但谁得到了收入?1819 年,著名经济学家大卫·李嘉图写道,只要租金和利润(新投资流出)不减少,经济中的就业量就无关紧要。“真的吗?”当时著名的瑞士评论家西蒙德·德·西斯蒙第回答道。 “财富就是一切,人什么都不是?什么?……事实上,没有什么比国王独自留在岛上,通过不断转动曲柄,通过自动机生产出英国所有的产品更令人向往的了。”杰里米·里夫金的这本令人大开眼界的书讲述了一个公司取代国王的世界,公司转动曲柄,启动机械、电气和电子自动机,为国家提供商品和服务。这绝不是最近的发展。如果我们能纵观美国的人机历史——或者就此而言,任何现代国家——我们都会发现,两百年来,
摘要。本文提出了一种深度强化学习方法,用于智能电网中多能源系统的优化管理。智能电网中生产和存储单元的最优控制问题被表述为部分可观测马尔可夫决策过程 (POMDP),并使用参与者-评论家深度强化学习算法进行解决。该框架在一个新型多能源住宅微电网模型上进行了测试,该模型涵盖电力、供暖和制冷存储以及热力生产系统和可再生能源发电。处理此类多能源系统的实时最优控制时面临的主要挑战之一是需要同时采取多种连续行动。所提出的深度确定性策略梯度 (DDPG) 代理已证明能够很好地处理连续状态和动作空间,并学会了同时对生产和存储系统采取多种行动,从而可以联合优化智能电网中的电力、供暖和制冷使用情况。这使得该方法可应用于更大规模多能源智能电网(如生态区和智能城市)的实时最优能源管理,这些电网需要同时采取多项连续行动。
摘要。本文提出了一种基于对抗学习的脑肿瘤分割任务训练方法。在这个概念中,3D 分割网络从对偶对抗学习方法中学习。为了增强分割预测的泛化能力并使分割网络具有鲁棒性,我们遵循虚拟对抗训练方法,通过在原始患者数据上添加一些噪声来生成更多的对抗性示例。通过加入一个充当定量主观裁判的评论家,分割网络从与分割结果相关的不确定性信息中学习。我们在 RSNA-ASNR-MICCAI BraTS 2021 数据集上对网络架构进行了训练和评估。我们在在线验证数据集上的表现如下:Dice 相似度得分分别为 81.38%、90.77% 和 85.39%;增强肿瘤、整个肿瘤和肿瘤核心的 HausdorffiDistance (95%) 分别为 21.83 毫米、5.37 毫米、8.56 毫米。同样,我们的方法在最终测试数据集上实现了 84.55%、90.46% 和 85.30% 的 Dice 相似度得分,以及 13.48 毫米、6.32 毫米和 16.98 毫米的 HausdorffiDistance (95%)。总体而言,我们提出的方法在每个肿瘤子区域的分割精度方面都取得了更好的表现。我们的代码实现是公开的。