强化学习,第 8 部分:特征状态构建

通过将状态特征巧妙地纳入学习目标来增强线性方法强化学习是机器学习的一个领域,它引入了代理在复杂环境中学习最佳策略的概念。代理根据环境状态从其行为中学习,从而获得奖励。强化学习是一个具有挑战性的话题,与机器学习的其他领域有很大不同。强化学习的显著之处在于,可以使用相同的算法使代理适应完全不同、未知和复杂的条件。关于本文在第 7 部分中,我们介绍了可扩展标准表格方法的值函数近似算法。除此之外,我们特别关注了一个非常重要的情况,即近似值函数是线性的。我们发现,线性保证了收敛到全局最优值或 TD 不动点(在半梯度方法中)。问题是,有时我们可能希望使用更复杂的近似值函数,而不仅仅是简单的标量积,而不离开线性优化空间。使用复杂近似函数的动机是它们无法解释特征之间相互作用的任何信息。由于真实状态值可能对输入特征具有非常复杂的函数依赖性,因此它们的简单线性形式可能不足以实现良好的近似

来源:None

强化学习,第8部分:特征状态构建

通过将状态特征巧妙地纳入学习目标

强化学习是机器学习中的一个领域,它介绍了代理在复杂环境中学习最佳策略的概念。代理商从其行动中学习,这是根据环境状态获得奖励的。强化学习是一个具有挑战性的话题,与机器学习的其他领域有很大不同。

r einformention学习

强化学习是显着的是,可以使用相同的算法来使代理适应完全不同,未知和复杂的条件。

关于这篇文章

在第7部分中,我们引入了缩放标准表格方法的值函数近似算法。除此之外,当近似值函数是线性时,我们特别关注非常重要的情况。正如我们发现的那样,线性性为全局最佳限度或TD固定点(以半级别方法)提供了保证的收敛。

第7部分 值函数近似 线性 全局最佳 TD固定点 半差

问题是,有时我们可能希望使用更复杂的近似值函数,而不仅仅是简单的标量产品,而不会离开线性优化空间。使用复杂近似函数的动机是,它们无法说明功能之间的相互作用信息。由于真实状态值可能对输入特征具有非常复杂的功能依赖性,因此它们的简单线性形式可能不足以实现良好的近似值。

无法说明功能之间的相互作用信息

在本文中,我们将了解如何在目标中有效地将有关状态特征的更多有价值的信息注入目标,而不会离开线性优化空间。

有效 注释 以前的文章

IDEA

第9章 强化学习”

问题

W w₁w₂

解决方案

x₃(s) w₁