最佳执行是任何交易者面临的重要问题。大多数解决方案基于对市场影响持续影响的假设,而流动性是动态的。具有随时间变化的流动性的模型通常假定它是可以观察到的,尽管实际上,它是潜在的,很难实时测量。在本文中,我们表明,使用Double Deep Q-Learning是一种基于神经网络的增强学习形式,可以在流动性时变化时学习最佳的交易政策。具体来说,我们考虑了一个具有临时和永久影响参数的Almgren-Chriss框架,这些框架是确定性和随机动力学后的。使用广泛的数值实验,我们表明,当分析解决方案可用时,受过训练的算法将学习最佳策略,并在没有解决方案时克服基准和近似解决方案。
主要关键词