摘要 - 本文提出了一种旨在检测套利机会的模型,重点是三角形和跨市场套利。利用Bellman-Ford算法和图形理论,该模型有效地确定了负循环,指示了高流动性环境中潜在套利的负循环,并结合了虚拟和实时数据。虽然证明它对于三角套利特别有效,但该模型需要进一步的完善才能提高其在跨市场场景中的有效性。在实际交易方案中,该模型面临着重大挑战,例如需要快速执行,交易费用的影响以及波动金融市场的需求。该研究讨论了必要的模型增强功能,以提高现实世界的适用性和执行效率。
本文考虑了仅在达到某些最终状态(或此类实例的组成)时才能获得积极奖励的RL实例,例如迷宫探索出口时有大量积极的奖励。尽管这种设置显然受到限制,但本文指出,培训与一项政策相关的深层网络,然后仅通过平滑贝尔曼方程并添加对初始状态的积极限制,可以通过随机性或好奇心来完成,而在此设置中,即在0-loss假设下,就可以在0板的假设中表现出积极的阳性Q值,以至于是在0板的假设中(以下一个效果),因此它是在0-loss假设中的出现(以下是一个效果),因此它是在0板的假设中(以下是一个效果),因此一定是一个效果,因此,这是一个效果,因此,这是一个效果,以至于一定要么在0层状态下(以下情况下),因此,一定是一个效果。被锁定。从这种初始化中,可以使用包含通往良好出口的路径的重播缓冲区来完善经典的深Q学习。未来的作品应考虑此框架的实际实验。
摘要 - Q学习已成为增强学习工具包的重要组成部分,因为它在1980年代的克里斯·沃特金斯(Chris Watkins)论文中引入了。在原始表格公式中,目标是精确地计算出折扣成本优化方程的解决方案,从而获得马尔可夫决策过程的最佳策略。今天的目标更为适中:在规定的功能类中获得近似解决方案。标准算法基于与1980年代公式相同的体系结构,其目的是找到一个求解所谓的投影贝尔曼方程的价值函数近似。虽然增强学习一直是一个活跃的研究领域,但几乎没有理论提供这些Q学习算法的融合条件,甚至存在该方程的解决方案。本文的目的是表明,只要函数类是线性的,并且用于训练的输入是ε-绿色策略的一种形式,并且具有足够小的ε。此外,在这些条件下,就界限参数估计而言,Q学习算法是稳定的。融合仍然是众多研究主题之一。
线性时间逻辑(LTL)目标的替代奖励通常用于LTL目标的计划问题。在广泛的替代奖励方法中,使用两个折现因素来确保预期收益近似于LTL目标的满意度。可以通过使用Bellman更新(例如增强学习)来估算预期的回报。但是,尚未明确讨论对贝尔曼方程的唯一性,并没有明确讨论两个折扣因素。我们证明了一个示例,即当将折扣因子之一设置为一个,如许多先前的作品中所允许的时,Bellman方程可能具有多个解决方案,从而导致对预期收益的评估不准确。然后,我们提出了一个条件,使钟手方程将预期的回报作为独特的解决方案,要求在拒绝底部连接的组件(BSCC)内的状态解决方案为0。我们证明这种情况是有足够的,可以证明具有折扣的州的解决方案可以与国家的解决方案分开而无需在这种情况下打折。关键字:马尔可夫链,极限确定性b - uchi automaton,可及性,b - uchi条件
路径特征是有效捕获路径的分析和几何特性的路径的强大表示,具有有用的代数特性,包括通过张量产品快速串联路径的特性。签名最近在用于时间序列分析的机器学习问题中广泛采用。在这项工作中,我们建立了通常用于最佳控制和吸引路径签名属性的价值函数之间的连接。这些连接激发了我们的新颖控制框架,具有签名转换,从而有效地将Bellman方程推广到轨迹空间。我们分析框架的属性和优势,称为签名控制。特别是我们证明(i)它自然可以处理不同/适应性的时间步骤; (ii)它比价值功能更新更有效地传播更高级别的信息; (iii)对于长期推出而言,动态系统错误指定是可靠的。作为我们框架的特定情况,我们设计了一种模型预测控制方法。此方法概括了整体控制,适合未知干扰的问题。在模拟中测试了所提出的算法,其中包括可区分的物理模型,包括典型的控制和机器人技术任务,例如点质量,ant模型的曲线跟随以及机器人操纵器。关键字:决策,路径签名,钟声方程,积分控制,模型预测控制,机器人技术
丰富的理论结果。已经设计了近距离的算法。[参见,例如AOM17,JABJ19]
Q学习算法(Watkins)给出了一种以模型自由方式计算最佳策略的更优雅的方式。表示q(x,u)采取行动u时状态x的最佳期望值,然后最佳地进行。是q(x,u)= r(x,u) +γx