路径特征是有效捕获路径的分析和几何特性的路径的强大表示,具有有用的代数特性,包括通过张量产品快速串联路径的特性。签名最近在用于时间序列分析的机器学习问题中广泛采用。在这项工作中,我们建立了通常用于最佳控制和吸引路径签名属性的价值函数之间的连接。这些连接激发了我们的新颖控制框架,具有签名转换,从而有效地将Bellman方程推广到轨迹空间。我们分析框架的属性和优势,称为签名控制。特别是我们证明(i)它自然可以处理不同/适应性的时间步骤; (ii)它比价值功能更新更有效地传播更高级别的信息; (iii)对于长期推出而言,动态系统错误指定是可靠的。作为我们框架的特定情况,我们设计了一种模型预测控制方法。此方法概括了整体控制,适合未知干扰的问题。在模拟中测试了所提出的算法,其中包括可区分的物理模型,包括典型的控制和机器人技术任务,例如点质量,ant模型的曲线跟随以及机器人操纵器。关键字:决策,路径签名,钟声方程,积分控制,模型预测控制,机器人技术
摘要 - Q学习已成为增强学习工具包的重要组成部分,因为它在1980年代的克里斯·沃特金斯(Chris Watkins)论文中引入了。在原始表格公式中,目标是精确地计算出折扣成本优化方程的解决方案,从而获得马尔可夫决策过程的最佳策略。今天的目标更为适中:在规定的功能类中获得近似解决方案。标准算法基于与1980年代公式相同的体系结构,其目的是找到一个求解所谓的投影贝尔曼方程的价值函数近似。虽然增强学习一直是一个活跃的研究领域,但几乎没有理论提供这些Q学习算法的融合条件,甚至存在该方程的解决方案。本文的目的是表明,只要函数类是线性的,并且用于训练的输入是ε-绿色策略的一种形式,并且具有足够小的ε。此外,在这些条件下,就界限参数估计而言,Q学习算法是稳定的。融合仍然是众多研究主题之一。
线性时间逻辑(LTL)目标的替代奖励通常用于LTL目标的计划问题。在广泛的替代奖励方法中,使用两个折现因素来确保预期收益近似于LTL目标的满意度。可以通过使用Bellman更新(例如增强学习)来估算预期的回报。但是,尚未明确讨论对贝尔曼方程的唯一性,并没有明确讨论两个折扣因素。我们证明了一个示例,即当将折扣因子之一设置为一个,如许多先前的作品中所允许的时,Bellman方程可能具有多个解决方案,从而导致对预期收益的评估不准确。然后,我们提出了一个条件,使钟手方程将预期的回报作为独特的解决方案,要求在拒绝底部连接的组件(BSCC)内的状态解决方案为0。我们证明这种情况是有足够的,可以证明具有折扣的州的解决方案可以与国家的解决方案分开而无需在这种情况下打折。关键字:马尔可夫链,极限确定性b - uchi automaton,可及性,b - uchi条件
Q学习算法(Watkins)给出了一种以模型自由方式计算最佳策略的更优雅的方式。表示q(x,u)采取行动u时状态x的最佳期望值,然后最佳地进行。是q(x,u)= r(x,u) +γx
本文考虑了仅在达到某些最终状态(或此类实例的组成)时才能获得积极奖励的RL实例,例如迷宫探索出口时有大量积极的奖励。尽管这种设置显然受到限制,但本文指出,培训与一项政策相关的深层网络,然后仅通过平滑贝尔曼方程并添加对初始状态的积极限制,可以通过随机性或好奇心来完成,而在此设置中,即在0-loss假设下,就可以在0板的假设中表现出积极的阳性Q值,以至于是在0板的假设中(以下一个效果),因此它是在0-loss假设中的出现(以下是一个效果),因此它是在0板的假设中(以下是一个效果),因此一定是一个效果,因此,这是一个效果,因此,这是一个效果,以至于一定要么在0层状态下(以下情况下),因此,一定是一个效果。被锁定。从这种初始化中,可以使用包含通往良好出口的路径的重播缓冲区来完善经典的深Q学习。未来的作品应考虑此框架的实际实验。
对此限制的潜在补救措施正在扩大算法利用的反馈。一种这样的方法是事后观察经验重播(她)(Andrychowicz等,2017)。她建立在Bellman方程式上以学习通用价值功能(Sutton等,2011; Schaul等,2015)。假设目标是达到某种目标状态,标准值函数仅根据其达到此目标的能力来估计状态的价值。相比之下,通用价值函数可预测任何其他状态的任何状态。她利用学习过程中遇到的状态来学习这种普遍的价值功能,利用富裕的反馈,而不是达到目标是否达到目标。考虑到这一点,文献中的几项作品应用于ATP(Aygéun等,2022; Trinh等,2024; Poesia等,2024)。
丰富的理论结果。已经设计了近距离的算法。[参见,例如AOM17,JABJ19]
第1节是简介。第2节是对受控马尔可夫链的简要介绍:随机控制问题的离散空间和时间设置。第3节随机差异方程的基础知识是下面的必要读数。第4节介绍了Bellman原理 /动态编程原则,Bellman PDE / Hamilton – Jacobi – Jacobi -Bellman PDE进行了受控的分歧。这是第一组工具,可用于解决涉及受控分散的控制问题。第5节将第4节扩展到了跳跃局的情况(没有提供证明),然后专注于算法交易和市场营销中的某些应用。第6节通过计算目标功能W.R.T.的导数来建立“第一阶条件”,以“变化的计算”方法来解决控制问题。控制中的扰动。这被称为随机最大原理或Pontryagin的最大或最佳原理。第4节和第6节在彼此之间彼此独立,因为提供了两种独立的解决控制问题的方式。