Loading...
机构名称:
¥ 1.0

在自动股票交易中使用增强学习(RL)由于其潜力通过直接从市场数据中学习来优化交易策略而引起了重大兴趣。该领域的早期工作以传统机器学习技术的基础为基础,朝着能够与财务环境互动的更具动态的模型迈进。Mnih等人做出了开创性的贡献。(2015)带有深Q-Networks(DQN),它为RL代理打开了在具有较大州空间(例如金融市场)环境中处理复杂决策的大门。这一进步激发了研究人员将DQN和其他RL算法应用于股票市场,在该股市中,代理商必须学会在不确定的不确定条件下做出买卖,出售或执行决定。Moody和Saffell(2001)的研究首先证明了将RL应用于直接股票交易的可行性。他们的工作将交易任务视为一个顺序决策过程,为将来的基于RL的系统奠定了基础,以优化累积回报。后来,诸如近端政策优化(PPO)和深层确定性政策梯度(DDPG)等算法已越来越多地应用于金融市场。这些算法,由Schulman等人介绍。(2017)和Lillicrap等。(2016)分别提供了在具有连续行动空间的环境中提高稳定性和性能,这对于必须精确做出交易决策的金融市场至关重要。总而言之,关于使用加强学习的自动股票交易的文献已取得了长足的进步,尤其是随着深度学习和高级RL算法的出现。虽然基于RL的代理商展示了超过传统方法的潜力,与数据质量,风险管理,计算复杂性以及对实时市场状况的适应性相关的挑战仍然是积极研究的领域。

自动交易策略的强化学习框架

自动交易策略的强化学习框架PDF文件第1页

自动交易策略的强化学习框架PDF文件第2页

自动交易策略的强化学习框架PDF文件第3页

自动交易策略的强化学习框架PDF文件第4页

自动交易策略的强化学习框架PDF文件第5页