摘要。本文提出了一种深度强化学习方法,用于智能电网中多能源系统的优化管理。智能电网中生产和存储单元的最优控制问题被表述为部分可观测马尔可夫决策过程 (POMDP),并使用参与者-评论家深度强化学习算法进行解决。该框架在一个新型多能源住宅微电网模型上进行了测试,该模型涵盖电力、供暖和制冷存储以及热力生产系统和可再生能源发电。处理此类多能源系统的实时最优控制时面临的主要挑战之一是需要同时采取多种连续行动。所提出的深度确定性策略梯度 (DDPG) 代理已证明能够很好地处理连续状态和动作空间,并学会了同时对生产和存储系统采取多种行动,从而可以联合优化智能电网中的电力、供暖和制冷使用情况。这使得该方法可应用于更大规模多能源智能电网(如生态区和智能城市)的实时最优能源管理,这些电网需要同时采取多项连续行动。
我们提出了一个控制理论框架来研究嵌入在模拟环境中的生物驱动人工神经系统(Sussillo,2014)的稳定性和可控性。从高层的角度来看,这个框架模拟了脑-机-环境的相互作用。我们首先考虑建模一个神经系统在虚拟环境中执行行为任务的问题。用控制理论的语言来说,神经系统与环境过程形成一个闭环反馈控制器。在第二步中,我们模拟神经系统的退化(例如在传感器或执行器处)并添加一个二级控制器(假肢),目的是恢复行为功能。在此过程中,我们考虑了大脑模型中的不确定性、非线性、测量噪声以及可观察状态和可控神经元的有限可用性。神经系统,从单个神经元到大规模群体,都以复杂的动态为特征,建模和控制可能具有挑战性(Ritt and Ching,2015)。经典控制理论(Khalil,2002;Brunton 和 Kutz,2017;Astrom 和 Murray,2020)为设计控制律提供了强大的工具,并在神经技术领域得到广泛应用,例如机械臂或计算机光标的闭环脑机接口 (BMI) 控制(Shanechi 等人,2016)、癫痫发作缓解的模型预测控制(Chatterjee 等人,2020)以及大脑在认知状态之间转换的机制解释(Gu 等人,2015)。闭环控制的一个特别成功的应用是通过深部脑刺激治疗帕金森病。在那里,可以使用基于阈值、比例积分或自调节控制器将病理性 β 波段振荡活动抑制在所需的目标水平(Fleming 等人,2020a、b)。 Schiffi (2011) 建立了一种将控制理论与神经科学和生物医学联系起来的典型方法,其中时空皮质动态模型与卡尔曼滤波器相结合,以估计未观察的状态并跟踪未知或漂移的模型参数。神经形态社区中的团队最近通过实现生物学上合理的操作和学习状态估计和控制规则(Friedrich 等人,2021;Linares-Barranco 等人,2022)以及神经形态 BMI 电路(Donati 和 Indiveri,2023)为这项工作做出了贡献,这有望在低功耗运行时实现更好的生物相容性。在上述许多方法中反复出现的一些挑战是线性(可实现)或低维系统的假设、对底层动态的知识或所需目标状态的可用性(如帕金森病的 DBS)。本文针对这些局限性做出了两项主要贡献。首先,我们建议一致使用动力系统来模拟大脑、环境、和假肢。除了统一方法论之外,这种选择还可以灵活地对不同程度的真实模型进行实验。在这里,我们展示了循环神经网络 (RNN) 作为神经系统和假肢的简单、高度可扩展的构建块的使用。其次,我们逐步消除了线性、系统知识、完全可观测性和监督目标状态的假设,通过使用强化学习 (RL)(Sutton 和 Barto,2020 年)进行系统识别和合成假肢控制器。
我们正在寻找具有国际知名度的科学家,以加强计算机科学系,他们在人工智能和机器学习领域拥有独立的研究和教学经验。人工智能和机器学习领域在这里被广泛地解释,其子领域包括深度学习、可解释性、不确定性量化、计算机视觉、符号人工智能或最优控制/强化学习。未来的候选人不仅应该丰富计算机科学小组;此外,还应促进与相关学科的研究和教学合作。
Damien Ernst 教授主要从事电力系统控制或智能电网领域的研究,用更时髦的词来说就是智能电网。从广义上解释“控制”一词,这些问题涵盖了众多问题,例如市场监管、整合可再生能源的主动配电网管理、能源政策、电网的实时控制或系统扩展。他最喜欢的解决这些控制问题的技术是强化学习技术,这是一种解决最优控制问题的采样方法。Ernst 教授还致力于开发新的强化学习算法,这些算法可应用于各个领域(例如机器人、医学和金融)。
使用时间相关哈密顿量控制量子系统对于量子技术至关重要 [1] ,它可以实现状态转移和门操作。一项重要任务是确定如何使此类过程实现最佳性能。在理想的封闭量子系统中,只要有足够的时间,就可以实现完美的操作 [2] 。由于物理哈密顿量是有界的,因此会出现速度限制,因此能量-时间不确定性会导致时间演变的最大速率,从而导致最短操作时间。然而,除了这种理想情况之外,还会出现其他考虑因素。其一是在无法保证精确控制时希望实现可靠操作;这可以通过使用鲁棒控制技术 [3] 或绝热过程 [4,5] 来实现。另一个是退相干和耗散的影响。在标准马尔可夫近似中,此类过程会随时间累积丢失信息。因此,人们通常认为快速操作是减少信息损失的理想选择,但也有明显的例外,即较慢的操作可以访问无退相干的子空间 [6] 。在本文中,我们表明,快速操作在非马尔可夫系统中并不总是理想的,因为较慢的操作可以利用信息回流来提高保真度。为了具体证明非马尔可夫系统中速度和保真度之间的权衡,我们使用数值最优控制来探索由驱动量子比特与玻色子环境相互作用组成的系统可实现的性能。最优控制 [7] 涉及确定一组时间相关的控制场,以最大化目标函数(例如保真度)。在这里,我们表明这可以在
不可调度的可再生能源(如光伏 (PV) 系统)在发电结构中的渗透率不断提高,对电力系统的运行性能提出了挑战。在需求方面,提高客户负载灵活性和电气化程度的先进方案将显著改变电力需求。此外,屋顶安装的光伏系统会改变其所连接建筑物的电力需求,因为所产生的电力首先服务于建筑物的电力负载,从而影响电网所经历的所谓净负载。本论文研究增强分散太阳能光伏电力与电力系统集成的解决方案,特别关注概率和多变量预测以及基于此类预测的控制框架。此外,本论文还通过太阳能光伏逆变器的无功功率控制来评估电压控制。使用静态和动态预测模型生成概率太阳能、负载和净负载预测,其中后者可减少约 99% 的计算时间,并提高校准和锐度,但降低预测分辨率。随后,动态预测模型用于研究客户空间聚集对预测密度的影响,从而提高校准和清晰度。有趣的是,在聚集少数客户时,积极影响已经显而易见,这可以改善社区层面的决策。还研究了时间和时空轨迹形式的多元预测,其中多元分布由 copula 表示。具体而言,结果表明,经验 copula 特别适合高维时空预测,而高斯 copula 非常适合具有较大预测范围的时间预测。此外,该论文开发了基于场景的随机模型预测控制算法的增强版本,该算法实现全局最优控制动作(如果存在)而不是独立最优控制动作的期望,从而更有效地管理预测误差。最后,将基于种群的搜索方法应用于无功功率控制,该方法能够明确且独立地模拟分散太阳能光伏逆变器之间的空间和时间关系,从而以比基准更小的种群获得更好的电压曲线。总之,本文表明,可以使用多种方法改进预测,例如,通过空间聚合客户、结合光伏发电和用电量、预先选择信息预测因子或对预测进行后处理。反过来,预测准确性的提高可以增加其在诸如最优控制问题等应用中的价值,从而改善城市能源系统中的太阳能光伏集成。
在本文中,我们提出了高效的量子算法,这些算法比解决量子最优控制问题的经典算法快得多。该问题涉及找到在时间 T 时最大化物理量的控制变量,其中系统由时间相关的薛定谔方程控制。这种类型的控制问题也与机器学习有着错综复杂的关系。我们的算法基于时间相关的汉密尔顿模拟方法和快速梯度估计算法。我们还提供了全面的误差分析,以量化各个步骤的总误差,例如控制函数的有限维表示、薛定谔方程的离散化、数值求积和优化。我们的量子算法需要容错量子计算机。
Damien Ernst 教授主要从事电力系统控制或智能电网(用更时髦的词来说)领域的研究。从广义上解释“控制”一词,这些问题涵盖了众多问题,例如市场监管、整合可再生能源的主动配电网管理、能源政策、电网或系统扩展的实时控制。他最喜欢的解决这些控制问题的技术是强化学习技术,这是一种解决最优控制问题的采样方法。Ernst 教授还致力于开发新的强化学习算法,这些算法可应用于各个领域(例如机器人、医学和金融)。
在本文中,我们考虑了机场等待使用跑道的飞机队列的建模和最优控制,并对相关文献进行了回顾。我们讨论了飞机队列作为非平稳排队系统的公式,并研究了文献中关于到达间隔和服务时间的随机分布的常见假设。这些取决于各种运营因素,包括满足预定运营时间的预期精度水平以及由于天气和风向变化而导致的机场容量固有的不确定性。我们还讨论了管理机场拥堵的战略和战术方法,包括使用时隙控制、地面等待程序、跑道配置更改和飞机排序政策。
农业是人类文明的基础。然而,全球人口的快速增长对粮食需求增加,对这一基石提出了挑战。配备传感器和执行器的现代自主温室通过精确控制实现高效的粮食生产,为这一问题提供了一个有希望的解决方案。然而,自主温室的最优控制具有挑战性,需要基于高维传感数据进行决策,而生产规模受到能够处理这项任务的劳动力稀缺的限制。随着人工智能(AI)、物联网(IoT)和云计算技术的进步,我们希望提供一种解决方案来自动化和智能化温室控制,以应对上述挑战。在本文中,我们提出了一种名为 iGrow 的智能农业解决方案,用于自主温室控制(AGC):(1)我们首次将 AGC 问题表述为马尔可夫决策过程 (MDP) 优化问题; (2) 设计基于神经网络的模拟器,结合增量机制,模拟自主温室的完整种植过程,为控制策略的优化提供试验平台;(3) 提出一种闭环双层优化算法,可在实际生产过程中利用新观测到的数据动态地重新优化温室控制策略。我们不仅进行模拟实验,还在真实场景中部署了 iGrow,实验结果证明了 iGrow 在自主温室模拟和最优控制方面的有效性和优越性。特别地,来自真实自主温室中番茄试点项目的令人信服的结果表明,与种植专家相比,我们的解决方案显著提高了作物产量(+10.15%)和净利润(+92.70%),具有统计学意义。我们的解决方案为温室生产开辟了一条新途径。代码可在 https://github.com/holmescao/iGrow.git 获得。