最近,世界能源系统正在经历重大的过渡。过渡主要是由更新不断发展的电基础设施,整合低碳能源并通过新型需求(例如智能住宅,电动运输,维持供应保护)来满足多余功耗的需求[1]。整体上,由于持续的气候变化,世界被迫从使用化石燃料发电厂转变为使用可再生能源,这与可持续发展目标(SDG)7一致,这需要从使用化石燃料转变为使用清洁和负担得起的能源的过渡。尽管整合各种来源具有提高的能源效率以及其可持续性的优势,但在分析电力系统稳定性期间,它也引入了新的困难。
摘要。这项研究重点是探索强化学习算法双胞胎的鲁棒性,延迟了深层确定性的政策梯度(TD3),尤其是在面对不确定性,噪音和钉子的表现方面。强化学习是一种机器学习范式,在该范式中,代理商学习如何执行任务并通过与环境的互动来优化长期奖励。这种学习方法在自动驾驶,游戏,机器人控制等领域具有广泛的应用。TD3是一种高级强化学习算法,在各种复杂的任务和环境中的性能非常出色。此外,TD3具有一些独特的性能优势,例如双Q批评结构和目标策略平滑,这在面对不确定性和噪音时可能会使其强大。虽然对增强学习的鲁棒性进行了广泛的研究,但相对缺乏专门针对TD3的研究。本研究旨在填补这一空白,并研究当添加不同类型的噪声或受到攻击时TD3的性能如何变化。这项研究的目的不仅旨在更深入地了解TD3算法本身,还旨在为增强学习鲁棒性的理论和实践提供强有力的支持。这项研究具有广泛的应用和学术价值,并有可能在强化学习领域推动进一步的进步。
我们引入了一种量子算法来计算金融衍生品的市场风险。先前的研究表明,量子振幅估计可以使目标误差的衍生品定价速度成二次方加速,我们将其扩展到市场风险计算中的二次误差缩放优势。我们表明,采用量子梯度估计算法可以在相关市场敏感度(通常称为希腊值)的数量上带来进一步的二次优势。通过对实际感兴趣的金融衍生品上的量子梯度估计算法进行数值模拟,我们证明我们不仅可以成功估计所研究示例中的希腊值,而且实践中的资源需求可以明显低于理论复杂性界限所预期的水平。这一在金融市场风险计算中的额外优势降低了 Chakrabarti 等人估计的金融量子优势所需的逻辑时钟速率。 [Quantum 5, 463 (2021)] 提高了 ∼ 7 倍,从 50MHz 提高到 7MHz,即使对于按行业标准计算的希腊字母数量不多的(四个)也是如此。此外,我们表明,如果我们有足够的资源,量子算法可以在多达 60 个 QPU 上并行化,在这种情况下,实现与串行执行相同的总体运行时间所需的每个设备的逻辑时钟速率将约为 100 kHz。在整个工作过程中,我们总结并比较了可用于计算金融衍生品市场风险的几种不同的量子和经典方法组合。