高频交易(HFT)使用计算机算法在短时间(例如第二级)中做出交易决策,该决策被广泛用于加密货币(Crypto)市场(例如比特币)。钢筋学习(RL)在Financial Research中表明,在许多Quantative交易任务上表现出色。但是,大多数方法都集中在低频交易上,例如日级,由于两个挑战,不能直接应用于HFT。首先,用于HFT的RL涉及处理非常长的轨迹(例如每月240万步),这很难优化和评估。其次,加密货币的急剧价格波动和覆盖趋势变化使现有算法无法保持令人满意的性能。为了解决这些挑战,我们提出了一种用于Hig f Reding(Earnhft)的方法,这是一个新颖的HFT三阶段层次RL框架。在第一阶段,我们计算了一个基于动态编程的最佳动作值,以提高二级RL代理的绩效和训练效率。在第二阶段,我们为不同的市场趋势构建了不同的RL代理,以回报率为特色,其中数百个RL代理人接受了不同的回报率偏好训练,只有一小部分将根据其盈利能力选择到池中。在第三阶段,我们训练了一个分钟级别的路由器,该路由器动态从泳池中挑选第二级代理商,以在不同市场上取得稳定的性能。通过在高保真仿真交易环境中对加密市场的各种市场趋势进行广泛的实验,我们证明,在3个流行的财务标准中,Earnhft显着超过了6个最先进的基线,超过了亚军的盈利者30%。
[28]。Zhang,Lingxuan Zhao,Haochong Xia,Shuo Sun,Jiaze Sun,Molei Qin,Xinyi Li,Yuqing Zhao,Yilei Zhao,Xinyu Cai,Longtao Zheng,Longtao Zheng,Xinrun Wang,Bo an。金融贸易的多模式基础代理:工具增强,多元化和通才。第30届ACM SIGKDD知识发现与数据会议(KDD)的会议记录,2024年。[27]。Pengdeng Li,Shuxin Li,Chang Yang,Xinrun Wang†,Shuyue Hu,Xiao Huang,Hau Chan,Bo an。可配置的镜像下降:统一决策。第41届国际机器学习会议(ICML)会议录,2024年。[26]。Xinrun Wang ∗,Chang Yang ∗,Shuxin Li,Pengdeng Li,Xiao Huang,Hau Chan和Bo An。增强NASH平衡求解器。第33届国际人工智能会议(IJCAI)的会议记录,2024年。[25]。Pengdeng Li,Shuxin Li,Chang Yang,Xinrun Wang†,Xiao Huang,Hau Chan,Bo an。自适应PSRO:迈向自动基于人群的游戏求解器。第33届国际人工智能会议(IJCAI)的会议记录,2024年。[24]。Longtao Zheng,Rundong Wang,Xinrun Wang†,Bo An†。Synapse:轨迹-AS-exemplar提示,并带有用于计算机控制的内存。2024年国际学习代表会议(ICLR)的会议记录,2024年。[23]。Weihao Tan,Winao Zhang,Shanqi Liu,Longtao Zheng,Xinrun Wang†,Bo An†。真正的知识来自实践:通过强化学习使大型语言模型与具体的环境保持一致。2024年国际学习代表会议(ICLR)的会议记录,2024年。[22]。Shanqi Liu,Dong Xing,Pengjie Gu,Bo An,Yong Liu,Xinrun Wang†。贪婪的顺序执行:使用统一框架解决同质和异质的合作任务。2024年国际学习代表会议(ICLR)会议录,Spotlight,2024。[21]。Pengdeng Li ∗,Shuxin Li ∗,Xinrun Wang†,Jakub Cerny,Youzhi Zhang,Stephen Marcus McAleer,Hau Chan,Bo An。Grasper:追求追求问题的通才追求者。第23届国际自主代理和多代理系统会议(AAMAS)的开发项目,2024年。[20]。molei Qin,Shuo Sun,Winao Zhang,Haochong Xia,Xinrun Wang†,Bo An†。Earnhft:高频交易的有效层次增强学习。第38届AAAI人工智能会议(AAAI)的会议记录,2024年。[19]。Haochong Xia,Shuo Sun,Xinrun Wang†,Bo An†。 市场贡献:通过语义上下文将控制权添加到金融市场数据的生产中。 第38届AAAI人工智能会议(AAAI)的会议记录,2024年。 [18]。 Pengdeng Li,Runsheng Yu,Xinrun Wang†,Bo An。 大规模stackelberg均值游戏的过渡信息增强学习。 第38届AAAI人工智能会议(AAAI)的会议记录,2024年。 [17]。 shuo sun ∗,molei Qin ∗,wentao Zhang,Haochong Xia,Chuqiao Zong,Jie Ying,Yonggang Xie,Lingxuan Zhao,Xinrun Wang wang†,Bo An†。 [16]。Haochong Xia,Shuo Sun,Xinrun Wang†,Bo An†。市场贡献:通过语义上下文将控制权添加到金融市场数据的生产中。第38届AAAI人工智能会议(AAAI)的会议记录,2024年。[18]。Pengdeng Li,Runsheng Yu,Xinrun Wang†,Bo An。大规模stackelberg均值游戏的过渡信息增强学习。第38届AAAI人工智能会议(AAAI)的会议记录,2024年。[17]。shuo sun ∗,molei Qin ∗,wentao Zhang,Haochong Xia,Chuqiao Zong,Jie Ying,Yonggang Xie,Lingxuan Zhao,Xinrun Wang wang†,Bo An†。[16]。商家:一个由强化学习增强的整体定量交易平台。第三十七届神经信息处理系统会议(NEURIPS)数据集和基准曲目,2023年。Pengjie Gu,Xinyu Cai,Dong Xing,Xinrun Wang†,Mengchen Zhao,Bo An。离线RL具有离散代理表示POMDPS中的概括性。第三十七届神经信息处理系统会议(神经),2023年。[15]。Shuo Sun,Xinrun Wang†,Wanqi Xue,Xiaoxuan Lou,bo an†。掌握股票市场,并有效地混合了多元化的交易专家。第29届ACM SIGKDD知识发现与数据会议(KDD)的会议记录,2023年。[14]。Runsheng Yu,Weiyu Chen,Xinrun Wang,James Kwok。通过多目标软改进功能增强元学习。第11届学习代表国际会议(ICLR),2023年。[13]。Pengdeng Li,Xinrun Wang†,Shuxin Li,Hau Chan,Bo an。对均值现场游戏的人口大小的政策优化。第11届学习代表国际会议(ICLR),2023年。[12]。Shuxin Li,Xinrun Wang†,Youzhi Zhang†,Wanqi Xue,Jakub Cerny,Bo an。使用预训练的策略来解决大规模追求逃避游戏。第37届AAAI人工智能会议(AAAI)的会议记录,11586-