新可再生能源的权力下放和不可预测性需要重新思考我们的能源系统。数据驱动的方法,例如增强学习(RL),已成为操作这些系统的新控制策略,但尚未应用于系统设计。本文旨在通过研究使用基于RL的方法来进行关节设计和控制现实世界PV和电池系统的方法来弥合这一差距。设计问题首先被提出为混合工作者线性编程问题(MILP)。然后使用最佳的MILP解决方案来评估旨在应用现有数据驱动算法的替代环境中训练的RL代理的性能。两种模型之间的主要区别在于它们的优化方法:虽然MILP找到了一种解决方案,但考虑到确定性的历史数据,RL是一种随机方法,可以在历史数据集中的所有周中搜索一周的预期数据。使用一周的数据和案例研究使用一年的数据,将两种方法都应用于玩具示例。在这两种情况下,都发现模型融合到类似的控制解决方案,但其投资决策却有所不同。总的来说,这些结果是最初的一步,说明了将RL用于能量系统的联合设计和控制的挑战。
主要关键词