高频交易(HFT)使用计算机算法在短时间(例如第二级)中做出交易决策,该决策被广泛用于加密货币(Crypto)市场(例如比特币)。钢筋学习(RL)在Financial Research中表明,在许多Quantative交易任务上表现出色。但是,大多数方法都集中在低频交易上,例如日级,由于两个挑战,不能直接应用于HFT。首先,用于HFT的RL涉及处理非常长的轨迹(例如每月240万步),这很难优化和评估。其次,加密货币的急剧价格波动和覆盖趋势变化使现有算法无法保持令人满意的性能。为了解决这些挑战,我们提出了一种用于Hig f Reding(Earnhft)的方法,这是一个新颖的HFT三阶段层次RL框架。在第一阶段,我们计算了一个基于动态编程的最佳动作值,以提高二级RL代理的绩效和训练效率。在第二阶段,我们为不同的市场趋势构建了不同的RL代理,以回报率为特色,其中数百个RL代理人接受了不同的回报率偏好训练,只有一小部分将根据其盈利能力选择到池中。在第三阶段,我们训练了一个分钟级别的路由器,该路由器动态从泳池中挑选第二级代理商,以在不同市场上取得稳定的性能。通过在高保真仿真交易环境中对加密市场的各种市场趋势进行广泛的实验,我们证明,在3个流行的财务标准中,Earnhft显着超过了6个最先进的基线,超过了亚军的盈利者30%。
主要关键词