Loading...
机构名称:
¥ 2.0

强化学习(RL)是机器学习中的一个活跃子区域,已成功应用于解决复杂的决策问题,例如玩棋盘游戏[31,32]和视频游戏[22] [22],自主驾驶[18,21],以及最近,将大型语言模型和文本生成模型与人类的preference preferfection and-to anclight [18,21]。RL研究主要集中在离散时间和空间中的马尔可夫决策过程(MDP)上。有关MDP的理论和应用的详细说明,请参见[34]。Wang,Zariphopoulou和Zhou [40]是第一个使用受控扩散过程的RL制定和开发RL的熵调查的,探索性控制框架的人,该过程固有地与连续状态空间和可能的连续作用(可能连续的动作(控制)空间)。在此框架中,随机放松控制被用来表示探索,从而捕获了RL核心的“反复试验”概念。随后的工作旨在通过Martingale方法[14、15、16]和政策优化在连续时间内为无模型RL奠定理论基础[44]。在这里,“无模型”是指潜在的动力学是扩散过程,但是它们的系数以及奖励函数是未知的。[14,15,16]的关键见解是,可以从基于连续时间RL的Martingale结构中得出学习目标。这些论文中的理论结果自然会导致一般RL任务的各种“无模型”算法,因为它们直接直接学习最佳策略而无需尝试学习/估计模型参数。这些算法中的许多算法恢复了通常以启发式方式提出的MDP的现有RL算法。然而,对MDP的RL研究占据了中心阶段的算法的融合和遗憾分析仍然缺乏扩散率。To our best knowledge, the only works that carry out a model-free convergence analysis and derive sublinear regrets are [12] for a class of stochastic linear–quadratic (LQ) control problems and [11] for continuous-time mean–variance portfolio selection, both of which apply/apapt the policy gradient algorithms developed in [15] and exploit heavily the special structures of the problems.本文的目的是通过对[16]中引入的(小)Q学习的定量分析以及通常非线性RL问题的相关算法来填补这一空白。(big)Q-学习是离散时间MDP RL的关键方法,但Q功能在连续的时间内崩溃,因为它不再依赖于时间步长无限时间小时的操作。[16]提出了Q功能的概念,Q功能是Q功能在时间离散化方面的第一阶导数。

通过连续时间选择均值 - 变化投资组合...

通过连续时间选择均值 - 变化投资组合...PDF文件第1页

通过连续时间选择均值 - 变化投资组合...PDF文件第2页

通过连续时间选择均值 - 变化投资组合...PDF文件第3页

通过连续时间选择均值 - 变化投资组合...PDF文件第4页

通过连续时间选择均值 - 变化投资组合...PDF文件第5页