H ∞ 滤波器针对的是噪声过程统计数据不确定的情况,此时我们的目标是最小化最坏情况而不是估计误差的方差 [ 3 , 26 ]。该滤波器限制了将扰动映射到估计误差的传递函数的 H ∞ 范数。然而,在瞬态操作中,会失去所需的 H ∞ 性能,并且滤波器可能会发散,除非每次迭代中都有一些(通常是限制性的)正性条件成立。在集值估计中,扰动向量通过有界集(如椭球)建模 [ 4 , 22 ]。在该框架中,我们试图围绕与观测值和外生扰动椭球一致的状态估计构建最小椭球。然而,由此产生的稳健滤波器会忽略任何分布信息,因此倾向于过于保守。 [19] 首次研究了一种对更一般形式的(基于集合的)模型不确定性具有鲁棒性的滤波器。该滤波器以迭代方式最小化标准状态空间模型附近所有模型的最坏情况均方误差。虽然该滤波器在面对较大不确定性时表现良好,但在较小不确定性下可能过于保守。[25] 提出了一种广义卡尔曼滤波器,它可以解决这个缺点,在标准性能和最坏情况性能之间取得平衡。通过最小化矩生成函数而不是估计误差平方的均值,可以得到风险敏感的卡尔曼滤波器 [24]。这种风险敏感的卡尔曼滤波器等同于 [12] 中提出的分布鲁棒滤波器,它最小化标准分布周围的 Kullback-Leibler (KL) 球中所有联合状态-输出分布的最坏情况均方误差。 [27] 研究了更一般的 τ -散度球的扩展。
可以使用具有异质性主体的两部门不完全市场模型来研究 COVID-19 封锁的分配效应。虽然封锁的负面总福利效应是不可避免的,但总福利效应的大小以及福利效应在主体之间的分配取决于受影响经济体的具体经济环境以及政府对冲击的反应。我们使用该模型根据对德国数据的校准来模拟封锁效应。首先,我们发现,如果没有国家援助和国际金融市场的有限准入,贫困家庭会遭受巨大的福利损失,而富裕家庭甚至可以从封锁中受益。其次,国家援助计划通过强制与未受影响部门的主体分担损失,减少了受影响部门所有收入群体工人的大部分福利损失。然而,无论在哪个部门,富裕家庭仍然比普通家庭受益更多。第三,进入国际金融市场是将相对福利收益从超级富豪转移到两个部门的贫困家庭的关键。一旦该国能够借入国际资金,超级富豪的利益就会减少。我们的结果表明,金融市场准入较为有限且政府预算状况较不稳定的国家将遭受更高的福利损失和不平等加剧。
摘要 - 预言学习(RL)已被证明在未来的智能无线网络中起着有希望的作用。在线RL已用于无线电资源管理(RRM),接管了传统计划。但是,由于依靠与环境的在线互动,其作用在在线互动不可行的实际,现实世界中受到限制。此外,在现实世界随机环境中的不确定性和风险面前,传统的RL在不确定性和风险面前处于短缺状态。以这种方式,我们为RRM问题提出了一个离线和分配RL方案,可以使用静态数据集启用离线培训,而无需与环境相互作用,并使用退货的分布来考虑不确定性的来源。仿真结果表明,所提出的方案的表现优于常规资源管理模型。此外,这是唯一超过在线RL的方案,比在线RL增长10%。索引术语 - 分布强化学习,离线强化学习,无线电资源管理
可再生能源渗透率的增长使供应变得更加不确定,并导致系统不平衡加剧。这种趋势与单一不平衡定价相结合,为平衡责任方 (BRP) 在不平衡解决机制中进行能源套利提供了机会。为此,我们提出了一种基于分布式强化学习的电池控制框架。我们提出的控制框架采取了风险敏感的视角,允许 BRP 调整其风险偏好:我们的目标是优化套利利润和风险度量(本研究中的风险价值)的加权和,同时限制电池的每日循环次数。我们使用 2022 年比利时的不平衡价格评估我们提出的控制框架的性能,并比较两种最先进的 RL 方法,即深度 Q 学习和软演员-评论家 (SAC)。结果表明,分布式软演员-评论家方法优于其他方法。此外,我们注意到,只有当代理对价格更确定时,我们的完全规避风险的代理才会适当地学会通过对电池进行(放电)充电来对冲与未知不平衡价格相关的风险。
摘要:虽然有些人看到碳捕获,利用和存储(CCUS)对具有成本效益的脱碳的行为,但它仍基于空气污染和股权征服。要了解这一成本 - 空气污染权衡,我们模拟了在合理的气候政策下允许在美国电力部门部署CCUS的潜在影响。我们表明,这种权衡的存在在很大程度上取决于基本政策,这影响了CCUS代的类型可能取代:在使煤炭生成激动的政策下,CCUS可能会改善健康结果并降低成本。当我们分解结果时,我们发现允许CCUS(PM 2.5)正面或负面的空气污染(PM 2.5)对黑人和低收入人群的最大。我们表明,允许CCU可以产生能源成本的节省,尤其是在低收入社区中。我们的灵敏度分析强调了不确定性对成本和收益的影响。总体而言,这项研究有助于我们理解允许CCU的更广泛的分布后果。
通过优化模型的最坏情况性能,基于分布的强大优化(DRO)图形网络方法改善了建议系统的脱离(OOD)概括。但是,这些研究未能考虑嘈杂样本在训练数据中的影响,这导致概括能力降低和准确性降低。通过实验和理论分析,本文表明,当前基于DRO的图形建议方法为噪声分布分配了更大的权重,从而导致模型参数学习由其主导。当模型过于关注训练数据中的噪声样本时,它可能会学习无关紧要或含义的较小功能,这些功能无法推广到OOD数据。为了应对这一挑战,我们为O OD推荐(DRGO)设计了D iStribution Rubust G Raph模型。具体来说,我们的方法首先采用简单有效的扩散范式来减轻潜在空间中的嘈杂效应。此外,在DRO目标函数中引入了熵常规项,以避免在最坏情况下分布中的极端样品权重。最后,我们提供了DRGO的概括误差结合的理论证明,以及对我们的方法如何对嘈杂的样本效应的理论分析,这有助于从理论角度更好地理解所提出的框架。我们在四个数据集上进行了广泛的实验,以评估我们的框架的有效性,以针对三个典型的分布变化进行评估,结果证明了其在独立和相同分布分布(IID)和OOD中的优势。我们的代码可在https://anonymon.4open.science/r/drgo-fed2上找到。
资料来源:Ofgem 对生活成本和食品调查数据的分析 注:这些数字不是实际英镑,而是调整后的储蓄,以反映低收入家庭每增加一英镑的收入比高收入家庭的更高价值。有关讨论,请参阅英国财政部 (2022 年,第 96 页)《绿皮书:中央政府关于评估和评估的指导》(PDF,1,320KB)。
本报告回顾了有关气候变化以及缓解和过渡途径的分布后果的文献。各个国家,地区,家庭和工人之间存在着气候变化的非均质水平和脆弱性暗示了无所作为的巨大分配成本。气候政策可能会触发从“高污染”部门到“绿色”部门的重新分配,从而不成比例地影响某些地区和低技能工人。基于价格的政策,例如碳税,在各国都显示出各种各样的影响:在发达国家中,它们在发达国家往往会更具回归性,而在能源可负担性和能源贫困的发展中国家则更加渐进。基于非市场的政策通常是回归的,可能导致公平问题。有效的气候行动需要平衡分配成果,确保政治上的可接受性并了解政策看法和支持之间的联系。
s 2 ak遗憾的上限,其中s,a,k,h,t = kh和β分别代表状态,动作,情节,时间范围,总时间段数量和风险参数的数量。它与RSVI2(Fei等人,2021年)匹配,与新的分布分析有关,重点是回报的分布,而不是与这些回报相关的风险值。据我们所知,这是第一个遗憾的分析,即在样本复杂性方面桥接了DRL和RSRL。要解决无模型DRL算法中固有的计算算法,我们提出了一种带有分布表示的替代DRL算法。这种方法有效地表示使用重新定义的分布类别的任何有限分布。在保持既定的后悔界限的同时,它显着扩大了计算效率。
干热岩储量丰富、分布广泛、绿色低碳,具有广阔的开发潜力与前景。本文提出了一种考虑干热岩热电联产的区域综合能源系统分布式鲁棒优化(DRO)调度模型。首先,在区域综合能源系统引入干热岩增强型地热系统(HDR-EGS),HDR-EGS通过与区域电网和区域热网协调运行,实现热电联产的热电解耦,增强系统风电接入空间。其次,在分时电价背景下,利用价格需求响应指导转移高峰负荷。最后,以区域综合能源系统调度周期内总成本最小化为优化目标,构建了考虑干热岩热电联产的区域综合能源系统DRO调度模型。通过模拟真实的小型区域综合能源系统,结果表明,HDR-EGS可以有效促进风电消纳,降低系统运行成本。