我们从多智能体强化学习 (MARL) 的角度研究了一个双层经济系统,我们称之为马尔可夫交换经济 (MEE)。MEE 涉及一个中央计划者和一组自利的智能体。智能体的目标是形成竞争均衡 (CE),其中每个智能体在每一步都短视地最大化自己的效用。中央计划者的目标是操纵系统以最大化社会福利,社会福利被定义为所有智能体效用的总和。在效用函数和系统动态都未知的环境中,我们建议通过 MARL 的在线和离线变体从数据中找到社会最优策略和 CE。具体而言,我们首先设计一个专门针对 MEE 的新型次优度量,这样最小化这样的度量就可以为计划者和智能体证明全局最优策略。其次,在线设置中,我们提出了一种称为 MOLM 的算法,该算法将探索的乐观原则与子博弈 CE 寻求相结合。我们的算法可以轻松结合用于处理大状态空间的一般函数逼近工具,并实现次线性遗憾。最后,我们根据悲观原则将算法调整为离线设置,并建立次优性的上限。
摘要 — 任务卸载决策在物联网 (IoT) 中的移动边缘计算 (MEC) 技术中起着关键作用。然而,在没有任何集中通信和计算协调的分布式多智能体网络中,它面临着来自应用层任务排队的随机动态和物理层耦合无线干扰的重大挑战。在本文中,我们研究了考虑上层排队动态和下层耦合无线干扰的分布式任务卸载优化问题。我们首先提出了一种新的优化模型,旨在通过优化多个智能体的卸载阈值来最大化它们的预期卸载率。然后,我们将问题转化为博弈论公式,进一步设计了一个分布式最佳响应 (DBR) 迭代优化框架。分析了博弈论模型中纳什均衡策略的存在性。对于每个代理阈值策略的单独优化,我们进一步提出了一种编程方案,将受约束的阈值优化转化为无约束的拉格朗日优化 (ULO)。单独的 ULO 被集成到 DBR 框架中,使代理能够以分布式方式协作并收敛到全局最优。最后,提供了模拟结果来验证所提出的方法,并证明了其相对于其他现有分布式方法的显著优势。数值结果还表明,所提出的方法可以实现与集中式优化方法相当的性能。
本报告包括引言、四个部分和结论。引言之后,第 2 部分解释了平衡机制的运作,并介绍了相关的欧盟立法。第 3 部分表明,欧盟目前的平衡机制组织是一种遗留问题,而不是经过深思熟虑的设计选择。我们解释说,替代设置在理论上是可能的,并且它们在实践中的表现取决于具体情况。为了评估不同的平衡设置,我们引入了一个多维框架,并通过比较欧盟和美国的当前设置来说明它。在第 4 部分中,我们强调了欧盟平衡机制目前面临的挑战,即随着 DER 份额的增加。我们认为,从中长期来看,如果不调整平衡机制的组织结构,以经济有效的方式运行平衡机制将变得越来越具有挑战性。在第 5 部分中,我们介绍了未来组织平衡机制的两种替代方法:“超级 SO 模型”和“本地 SO 模型”。关键问题是,管理平衡区域内的接缝还是平衡区域之间的接缝更容易。超级 SO 模型的主要挑战在于,考虑到所有电压水平和局部问题,很难实现全局最优。尽管局部 SO 模型可能更实用,但该模型的主要挑战在于以限制平衡市场分散的方式实施,这将对效率和竞争产生严重影响。
灵活性是促进配电网中可再生能源 (RES) 变化的最重要解决方案之一。据预测,电动汽车 (EV) 可以在配电网中发挥有效作用。因此,本文提出了停车场电动汽车电池 (EVPL) 的多目标调度,以提高智能配电网 (SDN) 基于存储的灵活性。所提出的公式将能源成本和电压偏差函数最小化,并将系统灵活性 (SF) 最大化为多目标函数,这些函数将根据交流负载流、RES 和 EV 约束以及灵活性和操作指标的允许限度进行优化。结果模型为非线性规划 (NLP) 模型。因此,获得了原始问题的等效线性规划 (LP) 公式,以实现全局最优结果。随机规划方法用于对负载、RES 的有功发电、能源价格和 EV 参数的不确定性进行建模。灵活的电源管理被制定为所提出的多目标框架的目标函数之一,该框架使用 ε 约束方法求解,由模糊决策器得出最佳折衷解决方案。在 GAMS 软件环境中使用 33 总线径向测试配电网络对所提出的框架进行了测试,以评估电动汽车在改善灵活性指标方面的能力。根据数值结果,可以观察到,所提出的具有电动汽车最佳能量管理的方案能够为 SDN 获得高度灵活性。它还可以减少网络运行中的能量损失并提供相当平滑的电压曲线。
决策树是众所周知的预测模型,常用于数据挖掘和机器学习的广泛应用 [1-3]。一般来说,决策树可以看作是一种流程图结构,可用于查询数据。从根开始,每个内部节点代表对查询数据的测试,每个传出分支代表此测试的可能结果。对于二叉树,测试结果是一个布尔值,因此可以是真也可以是假(即每个内部节点有两个分支)。树的每个叶子都可以与一个决策相关联。因此,从根到叶子的路径意味着一组针对查询数据的决策规则,就像一个顺序决策过程。具体来说,我们考虑二叉分类树,其中叶子的决策决定了数据点对预定义的离散类集的成员资格。从给定数据集推断决策树是一项监督机器学习任务,也称为决策树归纳(或决策树学习)。然而,寻找全局最优解是 NP 难问题 [4, 5],因此启发式递归算法在实践中更受青睐 [6]。此类算法通常以贪婪的自上而下的方式工作 [7]:从根开始,通过最小化数据不纯度函数来估计每个内部节点的最佳测试。相应地,沿着两个传出分支将数据集分成两个子集。对每个内部节点递归重复此过程,直到停止标准终止树的遍历并产生一个叶子节点,该叶子节点的分类决策基于节点内数据子集中存在的多数类。当所有路径都通向叶子节点时,算法结束。启发式创建的决策树并不能保证全局最优,但可能仍然适合实际用途。在量子计算的背景下,决策树可以被分配到量子机器学习领域 [8]。之前的几篇论文考虑了决策树和量子计算之间的相互作用。在 [9] 中,研究了决策树的遍历速度,并比较了经典方法和量子方法。作者发现两者之间没有优势。[10] 提出了一种启发式算法来诱导量子分类树,其中数据点被编码为量子态,并使用测量来找到最佳分割。然而,部分算法