摘要 — 本文提出了一种结合监督学习和动态规划的新型储能价格套利算法。所提出的方法使用神经网络直接预测不同储能充电状态水平下的机会成本,然后将预测的机会成本输入基于模型的套利控制算法以做出最佳决策。我们使用价格数据和动态规划算法生成历史最优机会价值函数,然后将其作为基本事实并以历史价格作为预测因子来训练机会价值函数预测模型。在使用不同储能模型和纽约州价格数据的案例研究中,我们的方法与完美预见相比实现了 65% 至 90% 的利润,这大大优于现有的基于模型和基于学习的方法。在保证高盈利能力的同时,该算法也是轻量级的,可以以最小的计算成本进行训练和实施。我们的结果还表明,学习到的预测模型具有出色的可转移性。使用一个地区的价格数据训练的预测模型在其他地区测试时也能提供良好的套利结果。索引词 — 能源存储;深度学习;电力系统经济学。I. 引言
在离线增强学习(RL)中,通过离散时间钟形方程更新值函数通常会由于可用数据范围有限而遇到挑战。这种限制源于Bellman方程,该方程无法准确预测未访问的状态的价值。为了解决这个问题,我们引入了一种创新的解决方案,该解决方案桥接了连续和离散的RL方法,利用了它们的优势。我们的方法使用离散的RL算法从数据集中得出值函数,同时确保该函数的第一个衍生衍生物与汉密尔顿 - 雅各布·贝尔曼在连续RL中定义的状态和动作的局部特征与状态和动作的局部特征一致。我们为确定性策略梯度方法和随机性政策梯度方法提供了实用算法。在D4RL数据集上进行的实验显示,合并一阶信息可显着改善离线RL问题的政策性能。
摘要虽然模仿学习需要访问高质量的数据,但原则上应以类似或更好的方式在数据质量下进行类似或更好的表现。但是,当前的结果表明,离线RL的性能通常比模仿学习差,而且通常不清楚是什么避免了离线RL的表现。在这项工作中,我们旨在了解当前离线RL算法中的瓶颈。虽然离线RL的表现较差通常是在不完美的价值函数上表现出来,但我们还是问:在学习价值函数,策略或其他内容时,离线RL的主要瓶颈确实是真正的瓶颈吗?为了回答这个问题,我们对(1)价值学习,(2)策略提取和(3)脱机RL问题的策略概括从每个组件的“数据尺度”属性中分析,分析了这些组件如何影响性能。我们进行了两个令人惊讶的观察。首先,选择性提取算法的选择会影响离线rl Sigig的性能和可伸缩性,通常比其基本价值学习目标更重要。例如,广泛使用的价值加权回归目标(例如AWR)无法完全利用学习的价值函数,并且切换到行为调节的策略梯度目标(例如DDPG+BC)通常会导致性能和缩放行为的实质性改善。其次,离线RL的次优性能通常是由于对培训数据的支持,而不是分布状态的策略准确性。虽然大多数当前的离线RL算法并未明确解决此问题,但我们表明,使用次优的但高覆盖范围的数据或即时的策略提取技术可以有效解决实践中的策略概括问题。
摘要 - 我们提出了一个新颖的层次结构增强学习框架,用于在具有挑战性的地形上进行四足运动。我们的方法结合了两层层次结构,高级计划者(HLP)选择低级政策(LLP)的最佳目标。LLP是使用派演员批评的RL算法训练的,并将脚步放置为目标。HLP不需要任何额外的培训或环境样本,因为它是通过在线优化过程对LLP的价值函数进行的。我们通过将其与端到端的强化学习(RL)方法进行比较来证明该框架的好处,从而突出了其在各种不同地形阵列中碰撞较少的碰撞较少的能力的提高。索引术语 - 动物学,强化学习,优化
对此限制的潜在补救措施正在扩大算法利用的反馈。一种这样的方法是事后观察经验重播(她)(Andrychowicz等,2017)。她建立在Bellman方程式上以学习通用价值功能(Sutton等,2011; Schaul等,2015)。假设目标是达到某种目标状态,标准值函数仅根据其达到此目标的能力来估计状态的价值。相比之下,通用价值函数可预测任何其他状态的任何状态。她利用学习过程中遇到的状态来学习这种普遍的价值功能,利用富裕的反馈,而不是达到目标是否达到目标。考虑到这一点,文献中的几项作品应用于ATP(Aygéun等,2022; Trinh等,2024; Poesia等,2024)。
摘要 - 本文提出了一种新的干扰观察者(DO)基于无线性干扰的非线性系统的基于基于(RL)的控制方法。虽然非线性干扰观察者(NDO)用于测量植物的不确定性,但植物中可能通过与控制信号的障碍存在障碍;从理论上讲,所谓的不匹配的障碍很难在系统状态的渠道内衰减。通过消除输出通道的不确定性影响来解决不确定性取消问题,以解决不确定性取消问题。con-目前,通过求解与补偿系统有关的理想价值函数的综合参与者RL方案,通过求解与补偿系统有关的理想价值函数,以求解汉密尔顿 - 贾科比·贝尔曼(HJB)方程的在线和同时进行流量。稳定性分析验证了所提出的框架的收敛性。仿真结果以说明拟议方案的有效性。
简介:基本概念。监督的学习设置:至少是平方,逻辑回归,感知器,指数家庭,生成学习算法,高斯判别分析,幼稚的贝叶斯,支持向量机器,模型选择和功能选择。学习理论:偏见/差异权衡,工会和切尔诺夫/hoeffding界限,风险投资维度,最坏情况(在线)学习。无监督的学习:聚类,k-均值,期望最大化,高斯人的混合物,因子分析,主成分分析,独立组件分析。强化学习和控制:马尔可夫决策过程,钟声方程,价值迭代和政策迭代,Q学习,价值函数近似,策略搜索,加强,部分可观察到的马尔可夫决策问题。
马尔可夫决策过程(MDPS)我们假定无限 - 摩尼克折扣的MDP M =(s,a,p⋆,r⋆,γ,s Init)的标准符号为真实环境,其中s in Init是disteristion的初始状态W.L.L.O.G.所有奖励都被认为是在[0,r max]中界定的,而v max:= r max /(1 -γ)是累积奖励和价值函数上的上限。我们假设s很大,因此不适用表格方法。在大多数情况下,我们考虑有限和小动作空间,但有些主张也在大型动作空间中。给定策略π,其预期回报为jm⋆(π):= em⋆,π[p∞t= 0γt r t]。有时,尤其是在反例中,考虑H-步骤有限的Horizon问题会更容易,其中预期的回报定义为(滥用符号)Jm⋆(π):=eπ[p h h = 1 r h]。