摘要 - 对建筑能源(包括HVAC和电池存储系统)的自治控制有可能优化运营并实现目标,例如成本最小化。现有方法要么需要建筑物的明确数学模型,要么诉诸于基于规则的控件(RBC),这可能是次优的。无模型的加固学习(RL)是一种克服这些局限性的有前途的方法 - 但是,在学习功能策略之前,通常需要与真实环境进行大量互动。在这项工作中,我们研究了“动作掩盖”,这是一种提高RL算法学习效率的技术,同时尊重学习阶段的安全规则。我们的解决方案与基线规则的控制器相比,成本降低了6%,并且表现优于流行的转移学习策略。这表明无模型的RL方法对于该领域的问题是可行的且实用的。
主要关键词