深度强化学习者经常面临有效协调感知和决策共同体的挑战,尤其是在具有高度感官输入的环境中,特征相关性各不相同。这项工作介绍了Sprig(使用内部游戏动力学的Spackelberg感知 - 预定学习学习),该框架将内部的感知互动建模为合作的Stackelberg游戏。在Sprig中,感知模块充当领导者,战略性地处理原始感觉状态,而策略模块则遵循,根据提取的功能做出决策。Sprig通过修改后的Bellman运营商提供了理由保证,同时保留了现代政策优化的好处。对Atari Beamrider环境的实验结果,通过其游戏理论提取和决策制定的游戏理论,获得了Sprig的有效性,比标准PPO提高了30%的回报。
•基于嫉妒的[1.6] - 基于嫉妒的游戏(基于嫉妒的游戏)在游戏算法理论中是指参与者不仅对自己的成果或利润感兴趣的情况,而且还将他们对其他玩家的立场进行比较。在此类游戏的背景下,与平等,社会正义和令人满意的满足感有关的问题至关重要。•图表中的分配[4] - 图中的分配游戏(图中的分配游戏)是算法游戏理论领域的一个概念,该概念着重于图形结构上的资源分配。在这些游戏中,图表的顶部代表了各种玩家,边缘确定了哪些玩家相关。玩家争夺位于图形边缘的资源。•Stackelberg [5] - 算法游戏理论中的Stackelberg方法是玩家之间战略互动的概念之一,其中一个名为“领导者”的玩家在另一个玩家面前做出决定,称为观察者。5对裁判员项目成员的要求不需要知道算法游戏理论的早期知识,算法和离散数学的基础知识。
摘要:本文讨论了电动汽车充电站的分散式电力调度。电力调度问题通过实时 Stackelberg 博弈解决。在这个博弈中,领导者是电动汽车充电站 (EVCS),追随者是电动汽车。EVCS 的偏好被设计为自给自足、为电动汽车提供充电服务以及维持电池储能系统的能量水平,这些偏好通过不同的效用函数来描述。此外,追随者的偏好是最大化他们的电动汽车充电功率。学习算法利用共识网络以迭代分散的方式达到广义 Stackelberg 均衡,作为电动汽车之间的电力调度。模拟中的静态和动态案例研究都验证了所提策略的成功实施、对不确定性的灵活性以及对电动汽车数量的可重构性。与以电动汽车平均充电时间、电池储能系统充放电次数、电网能量交换为衡量标准的集中式基准策略相比,该策略也具有优异的性能。最后,建立了一个缩小规模的实验实现,以验证基于博弈论的策略的功能性和有效性。
摘要在这项研究中,讨论了电动汽车(EV)的充电站中的分散电源调度。电源调度问题通过实时的Stackelberg游戏解决。在此游戏中,领导者是EV充电站(EVC),而追随者是EV。EVC的偏好被设计为自我足够,为电动汽车提供充电服务,并保持电池储能系统(BESS)的能量水平,这些电池储能系统(BESS)是通过不同的实用程序功能描述的。此外,追随者的偏好是最大化其EV充电能力。学习算法利用共识网络以迭代分散的方式达到广义的Stackelberg平衡作为电动汽车之间的功率调度。模拟中的静态和动态案例研究都验证了所提出的策略的成功实施,对不确定性的灵活性以及对电动汽车数量的可配置性。与具有标准的集中基准策略相比,它的性能也出色,即平均电动汽车充电时间,贝斯的充电数量和排放率和能量交换到电网。最后,建立了一个缩小的实验实现,以验证基于游戏理论的策略的功能和有效性。
摘要 —本文研究了将社区储能 (CES) 系统与屋顶光伏 (PV) 发电相结合以进行社区需求侧管理的可行性,同时将配电网电压保持在允许的范围内。为此,我们在 CES 供应商和拥有屋顶光伏系统的用户之间开发了一个分散式能源交易系统。通过利用辐射配电网的线性分支流模型,开发了一个电压受限的领导者-追随者 Stackelberg 博弈,其中 CES 供应商通过与 CES 系统和电网交易能源来最大化收入,用户最小化个人能源成本。Stackelberg 博弈具有独特的均衡,CES 供应商在独特的纳什均衡下最大化收入,用户最小化能源成本。案例研究使用真实的光伏发电和需求数据,证实了能源交易系统可以降低峰值能源需求并防止网络电压偏移,同时为用户和 CES 供应商带来经济效益。此外,模拟结果表明,与集中式系统相比,分散式能源交易系统为能源存储容量较少的用户提供了更大的经济效益。
2。“遗憾的是,在带有附带信息的Stackelberg游戏中最小化”,Cuhk-Shenzhen,全球Young Scholars论坛(2025年1月)加利福尼亚大学圣地亚哥分校,在数据科学研讨会上崛起的明星(2024年11月)Carnegie Mellon University,Carnegie Mellon University,计算机科学理论(2024年11月2024年11月2024年) Neurips 2023,关于多机构安全的研讨会(2023年12月,聚光灯演示)
摘要 — 智能电网激励具有本地发电的分布式代理(例如智能家居和微电网)建立多代理系统,以提高可靠性和能源消耗效率。分布式能源交易已成为电网中最重要的多代理系统之一,它使代理能够将其多余的本地能源相互出售或卖回电网。但是,它要求所有代理披露其敏感数据(例如,每个代理的细粒度本地发电和需求负载)。在本文中,据我们所知,我们提出了第一个保护隐私的分布式能源交易框架,即私人能源市场(PEM),其中所有代理私下计算其交易的最佳价格(由纳什均衡确保),并在不披露敏感数据的情况下分配成对的能源交易量(通过新颖的加密协议)。具体来说,我们将交易问题建模为所有代理(即买家和卖家)的非合作 Stackelberg 博弈,以确定最优价格,然后得出成对交易金额。我们的 PEM 框架可以在没有可信第三方的情况下在所有代理之间私下执行所有计算。我们证明了 PEM 框架的隐私性、个人理性和激励兼容性。最后,我们在真实数据集上进行实验以验证 PEM 的有效性和效率。索引术语——隐私;安全多方计算;Stackelberg 博弈;激励兼容性;智能电网
I. 引言人们对自动驾驶汽车 (AV) 的安全问题仍然存在,需要解决这一问题才能成功融入日常交通 [1]。除了真实的交通测试外,计算机模拟的交通环境还可用于加速验证阶段并引入各种各样的交通场景,这些场景可能需要几个小时的驾驶才能遇到 [2]–[4]。为了获得可靠的模拟结果,人类驾驶员模型应以合理的精度展示类似人类的驾驶行为。文献中提出了几种对人类驾驶员进行建模的方法。[5]–[7] 中的马尔可夫模型和 [8] 和 [9] 中的支持向量机用于预测驾驶员行为。[10]–[12] 中也将神经网络用于此目的。用于对驾驶员行为进行建模的其他工具包括动态贝叶斯网络 [13]、高斯过程 [14]、[15] 和逆强化学习 (RL) [16]、[17]。还提出了博弈论驾驶员模型。例如,在 [18] 中,Stackelberg 游戏用于对高速公路驾驶进行建模,但没有考虑由多个动作组成的动态场景。Stackelberg 游戏也用于 [19],它考虑了多动作场景。但是,一旦玩家数量增加到 2 以上,计算就会变得非常复杂。[20] 提出了一种博弈论逆 RL 方法,用于预测两个驾驶员之间的相互作用,同时假设周围车辆的预定义策略。这种方法对于
摘要 目的——本文旨在为制造商寻找最优的减排投资策略,并考察碳限额与交易政策和不确定的低碳偏好对减排投资策略的影响。 设计/方法/方法——本文研究了一个由一个制造商和一个零售商组成的供应链,其中制造商负责减排投资。制造商有两种减排投资策略:(1)仅在生产过程中投资传统减排技术;(2)在使用过程中增加对智能供应链技术的投资。然后,开发了三种不同的Stackelberg博弈模型来探讨制造商在不同情况下的收益。最后,本文通过制定收益共享合同来协调制造商和零售商。 研究结果——制造商的最优减排策略是动态的。当消费者的低碳偏好较低且政府实施碳限额与交易政策时,制造商可以通过增加使用过程中的减排投资来获得最高利润。只有当初始碳排放量较低时,碳限额与交易政策才能鼓励制造商减少排放。消费者的低碳偏好使减排量、订单量和制造商利润增加,制造商可根据两个环节的减排成本系数调整减排投入。 原创性/价值——本文考虑了不同环节减排技术的投入,为制造商低碳转型提供了理论指导,并为政府有效实施碳排放限额与交易政策提供了建议。 关键词 供应链 减排 低碳偏好 碳排放限额与交易政策 Stackelberg 博弈 论文类型 研究论文
•简介:多代理系统的游戏理论和机制设计; •中等访问控制问题;路由问题;资源分配•问题。•静态非合作游戏:矩阵游戏和连续内核游戏; •主导策略;纳什平衡;无政府状态的价格;稳定价格; •混合和相关的平衡;矩阵中的NASH平衡计算•游戏。多个资源拥塞游戏。•动态非合作游戏:具有不完美的广泛表格•信息:正常形式,子游戏完美平衡,顺序平衡; •具有观察到的动作的多阶段游戏;重复的游戏; Stackelberg游戏; •继电器选择和电源控制游戏。•进化游戏:进化稳定策略;复制器动力学; •鹰派游戏; Aloha协议的进化游戏和Peer-to-to-div>