摘要 - 人工智能(AI)和机器学习(ML)正在通过部署能够通过广泛的财务数据集进行筛分的高级算法来转变定量交易的领域(QT),以查明利润丰厚的投资开放。AI驱动的模型,尤其是那些具有深度学习和强化学习等掌握的ML技术的模型,在预测市场趋势和以速度和准确性执行交易方面表现出了极大的能力,超过了人类的能力。其自动化关键任务的能力,例如辨别市场状况和执行交易策略,至关重要。但是,当前QT方法中存在持续的挑战,尤其是在有效处理嘈杂和高频财务数据的过程中。在探索和剥削之间取得平衡,对AI驱动的交易代理提出了另一个挑战。为了克服这些障碍,我们提出的解决方案QT-NET引入了一种自适应交易模型,该模型可以自主通过智能交易代理自动制定QT策略。将深度强化学习(DRL)与模仿学习方法结合在一起,我们加强了模型的熟练程度。为了应对波动性金融数据集带来的挑战,我们将QT机制概念化为可观察到的马尔可夫决策过程(POMDP)的框架。此外,通过嵌入模仿学习,该模型可以利用传统的交易策略,从而培养发现与利用之间的平衡协同作用。为了进行更现实的模拟,我们的贸易代理商使用来自现场金融市场的分钟数据进行培训。实验发现强调了该模型在提取强大的市场特征及其对各种市场条件的适应性方面的熟练程度。索引条款 - 质量交易,加强学习
摘要 - 函数-AS-A-Service(FAAS)引入了一个轻巧的,基于功能的云执行模型,该模型在诸如IOT-EDGE数据处理和异常检测等一系列应用程序中找到了相关性。虽然云服务提供商(CSP)提供了近乎无限的功能弹性,但这些应用程序通常会遇到波动的工作负载和更严格的性能限制。典型的CSP策略是基于基于监视的阈值(例如CPU或内存)来确定和调整所需的功能实例或资源,称为自动化,以应对需求和性能。但是,阈值配置需要专家知识,历史数据或对环境的完整视图,从而使自动化的性能瓶颈缺乏适应性的解决方案。强化学习(RL)算法被证明有益于分析复杂的云环境,并导致适应性的政策,从而最大程度地提高了预期目标。最现实的云环境通常涉及操作干扰,并且可见度有限,使它们部分可观察到。在高度动态的设置中解决可观察性的一般解决方案是将复发单元与无模型的RL算法集成,并将决策过程建模为部分可观察到的马尔可夫决策过程(POMDP)。因此,在本文中,我们研究了用于功能自动化的无模型复发剂,并将其与无模型近端策略优化(PPO)算法进行比较。我们探讨了长期术语内存(LSTM)网络与最先进的PPO算法的集成,以发现在我们的实验和评估设置下,经常性的策略能够捕获环境参数并显示出有希望的函数自动效果的结果。我们进一步将基于PPO的自动化剂与商业使用的基于阈值的函数自动化和认为,基于LSTM基于LSTM的自动体现剂能够将吞吐量提高18%,功能执行13%,占8.4%的功能实例。
[1] Michael Ahn、Anthony Brohan、Noah Brown、Yevgen Chebotar、Omar Cortes、Byron David、Chelsea Finn、Keerthana Gopalakrishnan、Karol Hausman、Alex Herzog 等人。2022 年。尽我所能,不要照我说的做:为机器人可供性奠定语言基础。arXiv 预印本 arXiv:2204.01691 (2022)。[2] Chris Baker、Rebecca Saxe 和 Joshua Tenenbaum。2011 年。贝叶斯心智理论:建模联合信念-愿望归因。在认知科学学会年会论文集,第 33 卷。[3] Chris L Baker、Noah D Goodman 和 Joshua B Tenenbaum。2008 年。基于理论的社会目标推理。在认知科学学会第三十届年会论文集。 Citeseer,1447–1452。[4] Chris L Baker 和 Joshua B Tenenbaum。2014 年。使用贝叶斯心理理论对人类计划识别进行建模。计划、活动和意图识别:理论与实践 7 (2014),177–204。[5] Andreea Bobu、Marius Wiggert、Claire Tomlin 和 Anca D Dragan。2021 年。特征扩展奖励学习:重新思考人类输入。在 2021 年 ACM/IEEE 人机交互国际会议论文集上。216–224。[6] Andreea Bobu、Marius Wiggert、Claire Tomlin 和 Anca D Dragan。2022 年。通过学习特征在奖励学习中诱导结构。国际机器人研究杂志 (2022),02783649221078031。[7] Mustafa Mert Çelikok、Tomi Peltola、Pedram Daee 和 Samuel Kaski。2019 年。具有心智理论的交互式人工智能。arXiv 预印本 arXiv:1912.05284 (2019)。[8] Aakanksha Chowdhery、Sharan Narang、Jacob Devlin、Maarten Bosma、Gaurav Mishra、Adam Roberts、Paul Barham、Hyung Won Chung、Charles Sutton、Sebastian Gehrmann 等人。2022 年。Palm:使用路径扩展语言建模。arXiv 预印本 arXiv:2204.02311 (2022)。[9] Harmen De Weerd、Rineke Verbrugge 和 Bart Verheij。 2013. 了解她知道你知道的事情有多大帮助?一项基于代理的模拟研究。人工智能 199 (2013),67–92。[10] Jacob Devlin、Ming-Wei Chang、Kenton Lee 和 Kristina Toutanova。2018. Bert:用于语言理解的深度双向变压器的预训练。arXiv 预印本 arXiv:1810.04805 (2018)。[11] Prafulla Dhariwal 和 Alexander Nichol。2021. 扩散模型在图像合成方面击败了 gans。神经信息处理系统进展 34 (2021),8780–8794。[12] Prashant Doshi、Xia Qu、Adam Goodie 和 Diana Young。2010. 使用经验主义交互式 POMDP 对人类的递归推理进行建模。在第九届自主智能体和多智能体系统国际会议论文集:第 1 卷-第 1 卷。1223–1230。[13] 段佳飞、余志强、谭辉、朱宏远和陈志东。2022 年。具身人工智能调查:从模拟器到研究任务。IEEE 计算智能新兴主题汇刊 (2022 年)。[14] 段佳飞、余志强、谭辉、易立和陈志东。2022 年。BOSS:对象上下文场景中人类信念预测的基准。arXiv 预印本 arXiv:2206.10665 (2022 年)。[15] David Engel、Anita Woolley、Lisa Jing、Christopher Chabris 和 Thomas Malone。2014 年。从眼睛读懂心思还是从字里行间读懂心思?心智理论在线上和面对面时同样能预测集体智慧。PloS one 9 (12 2014),e115212。https://doi.org/10.1371/journal.pone.0115212 [16] Dylan Hadfield-Menell、Stuart J Russell、Pieter Abbeel 和 Anca Dragan。2016 年。合作逆强化学习。神经信息处理系统的进展 29 (2016)。[17] Yanlin Han 和 Piotr Gmytrasiewicz。2018 年。使用交互式 POMDP 在多智能体环境中学习他人的意向模型。神经信息处理系统的进展 31 (2018)。 [18] 何开明、张翔宇、任少卿和孙健。2016 年。深度残差学习在图像识别中的应用。IEEE 计算机视觉与模式识别会议论文集。770–778。[19] Jonathan Ho、Ajay Jain 和 Pieter Abbeel。2020 年。去噪扩散概率模型。神经信息处理系统进展 33(2020 年),6840–6851。[20] Kyriaki Kalimeri 和 Ingvar Tjostheim。2020 年。人工智能与对未来的担忧:挪威案例研究。在《分布式、环境和普适交互》中,Norbert Streitz 和 Shin'ichi Konomi(编辑)。Springer International Publishing,Cham,273–284。 [21] Max Kleiman-Weiner、Mark K Ho、Joseph L Austerweil、Michael L Littman 和 Joshua B Tenenbaum。2016 年。协调合作或竞争:社交互动中的抽象目标和共同意图。《认知科学》。[22] Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton。2015 年。深度学习。《自然》521,7553(2015 年),436–444。[23] Maria D. Molina 和 S. Shyam Sundar。0. 对人类的不信任是否预示着对人工智能的更大信任?个体差异在用户对内容审核反应中的作用。新媒体与社会 0, 0 (0), 14614448221103534。https://doi.org/10.1177/14614448221103534 arXiv:https://doi.org/10.1177/14614448221103534 [24] David Premack 和 Guy Woodruff。1978 年。黑猩猩有心理理论吗?行为与脑科学 1, 4 (1978),515–526。[25] David Premack 和 Guy Woodruff。1978 年。黑猩猩有心理理论吗?行为与脑科学 1, 4 (1978),515–526。 https://doi.org/10.1017/S0140525X00076512 [26] Neil Rabinowitz、Frank Perbet、Francis Song、Chiyuan Zhang、SM Ali Eslami 和 Matthew Botvinick。2018 年。机器心智理论。国际机器学习会议。PMLR,4218–4227。[27] Aditya Ramesh、Mikhail Pavlov、Gabriel Goh、Scott Gray、Chelsea Voss、Alec Radford、Mark Chen 和 Ilya Sutskever。2021 年。零样本文本到图像生成。国际机器学习会议。PMLR,8821–8831。org/10.1371/journal.pone.0115212 [16] Dylan Hadfield-Menell、Stuart J Russell、Pieter Abbeel 和 Anca Dragan。2016 年。合作式逆强化学习。神经信息处理系统进展 29(2016 年)。[17] Yanlin Han 和 Piotr Gmytrasiewicz。2018 年。使用交互式 POMDP 在多智能体环境中学习他人的意向模型。神经信息处理系统进展 31(2018 年)。[18] Kaiming He、Xiangyu Zhang、Shaoqing Ren 和 Jian Sun。2016 年。用于图像识别的深度残差学习。IEEE 计算机视觉与模式识别会议论文集。770–778。[19] Jonathan Ho、Ajay Jain 和 Pieter Abbeel。 2020. 去噪扩散概率模型。神经信息处理系统进展 33 (2020),6840–6851。[20] Kyriaki Kalimeri 和 Ingvar Tjostheim。2020. 人工智能与对未来的担忧:挪威案例研究。在分布式、环境和普适交互中,Norbert Streitz 和 Shin'ichi Konomi(编辑)。Springer International Publishing,Cham,273–284。[21] Max Kleiman-Weiner、Mark K Ho、Joseph L Austerweil、Michael L Littman 和 Joshua B Tenenbaum。2016. 协调合作或竞争:社交互动中的抽象目标和共同意图。在 CogSci 中。[22] Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton。2015. 深度学习。 nature 521, 7553 (2015), 436–444。[23] Maria D. Molina 和 S. Shyam Sundar。0. 对人类的不信任是否预示着对人工智能的信任度更高?个体差异在用户对内容审核的反应中的作用。新媒体与社会 0, 0 (0), 14614448221103534。https://doi.org/10.1177/14614448221103534 arXiv:https://doi.org/10.1177/14614448221103534 [24] David Premack 和 Guy Woodruff。1978 年。黑猩猩有心智理论吗?行为与脑科学 1, 4 (1978), 515–526。[25] David Premack 和 Guy Woodruff。 1978. 黑猩猩有心智理论吗?行为与脑科学 1, 4 (1978),515–526。https://doi.org/10.1017/S0140525X00076512 [26] Neil Rabinowitz、Frank Perbet、Francis Song、Chiyuan Zhang、SM Ali Eslami 和 Matthew Botvinick。2018. 机器心智理论。在国际机器学习会议上。PMLR,4218–4227。[27] Aditya Ramesh、Mikhail Pavlov、Gabriel Goh、Scott Gray、Chelsea Voss、Alec Radford、Mark Chen 和 Ilya Sutskever。2021. 零样本文本到图像生成。在国际机器学习会议上。PMLR,8821–8831。org/10.1371/journal.pone.0115212 [16] Dylan Hadfield-Menell、Stuart J Russell、Pieter Abbeel 和 Anca Dragan。2016 年。合作式逆强化学习。神经信息处理系统进展 29(2016 年)。[17] Yanlin Han 和 Piotr Gmytrasiewicz。2018 年。使用交互式 POMDP 在多智能体环境中学习他人的意向模型。神经信息处理系统进展 31(2018 年)。[18] Kaiming He、Xiangyu Zhang、Shaoqing Ren 和 Jian Sun。2016 年。用于图像识别的深度残差学习。IEEE 计算机视觉与模式识别会议论文集。770–778。[19] Jonathan Ho、Ajay Jain 和 Pieter Abbeel。 2020. 去噪扩散概率模型。神经信息处理系统进展 33 (2020),6840–6851。[20] Kyriaki Kalimeri 和 Ingvar Tjostheim。2020. 人工智能与对未来的担忧:挪威案例研究。在分布式、环境和普适交互中,Norbert Streitz 和 Shin'ichi Konomi(编辑)。Springer International Publishing,Cham,273–284。[21] Max Kleiman-Weiner、Mark K Ho、Joseph L Austerweil、Michael L Littman 和 Joshua B Tenenbaum。2016. 协调合作或竞争:社交互动中的抽象目标和共同意图。在 CogSci 中。[22] Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton。2015. 深度学习。 nature 521, 7553 (2015), 436–444。[23] Maria D. Molina 和 S. Shyam Sundar。0. 对人类的不信任是否预示着对人工智能的信任度更高?个体差异在用户对内容审核的反应中的作用。新媒体与社会 0, 0 (0), 14614448221103534。https://doi.org/10.1177/14614448221103534 arXiv:https://doi.org/10.1177/14614448221103534 [24] David Premack 和 Guy Woodruff。1978 年。黑猩猩有心智理论吗?行为与脑科学 1, 4 (1978), 515–526。[25] David Premack 和 Guy Woodruff。 1978. 黑猩猩有心智理论吗?行为与脑科学 1, 4 (1978),515–526。https://doi.org/10.1017/S0140525X00076512 [26] Neil Rabinowitz、Frank Perbet、Francis Song、Chiyuan Zhang、SM Ali Eslami 和 Matthew Botvinick。2018. 机器心智理论。在国际机器学习会议上。PMLR,4218–4227。[27] Aditya Ramesh、Mikhail Pavlov、Gabriel Goh、Scott Gray、Chelsea Voss、Alec Radford、Mark Chen 和 Ilya Sutskever。2021. 零样本文本到图像生成。在国际机器学习会议上。PMLR,8821–8831。在 IEEE 计算机视觉与模式识别会议论文集上。770–778。[19] Jonathan Ho、Ajay Jain 和 Pieter Abbeel。2020 年。去噪扩散概率模型。神经信息处理系统进展 33 (2020),6840–6851。[20] Kyriaki Kalimeri 和 Ingvar Tjostheim。2020 年。人工智能与对未来的担忧:挪威案例研究。在《分布式、环境和普适交互》中,Norbert Streitz 和 Shin'ichi Konomi(编辑)。Springer International Publishing,Cham,273–284。[21] Max Kleiman-Weiner、Mark K Ho、Joseph L Austerweil、Michael L Littman 和 Joshua B Tenenbaum。 2016. 协调合作或竞争:社会互动中的抽象目标和共同意图。在 CogSci 中。[22] Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton。2015. 深度学习。自然 521,7553(2015),436–444。[23] Maria D. Molina 和 S. Shyam Sundar。0. 对人类的不信任是否预示着对人工智能的更大信任?个体差异在用户对内容审核反应中的作用。新媒体与社会 0, 0 (0),14614448221103534。https://doi.org/10.1177/14614448221103534 arXiv:https://doi.org/10.1177/14614448221103534 [24] David Premack 和 Guy Woodruff。 1978. 黑猩猩有心智理论吗?行为与脑科学 1, 4 (1978), 515–526。[25] David Premack 和 Guy Woodruff。1978. 黑猩猩有心智理论吗?行为与脑科学 1, 4 (1978), 515–526。https://doi.org/10.1017/S0140525X00076512 [26] Neil Rabinowitz、Frank Perbet、Francis Song、Chiyuan Zhang、SM Ali Eslami 和 Matthew Botvinick。2018. 机器心智理论。国际机器学习会议。PMLR,4218–4227。 [27] Aditya Ramesh、Mikhail Pavlov、Gabriel Goh、Scott Gray、Chelsea Voss、Alec Radford、Mark Chen 和 Ilya Sutskever。2021 年。零样本文本转图像生成。国际机器学习会议。PMLR,8821–8831。在 IEEE 计算机视觉与模式识别会议论文集上。770–778。[19] Jonathan Ho、Ajay Jain 和 Pieter Abbeel。2020 年。去噪扩散概率模型。神经信息处理系统进展 33 (2020),6840–6851。[20] Kyriaki Kalimeri 和 Ingvar Tjostheim。2020 年。人工智能与对未来的担忧:挪威案例研究。在《分布式、环境和普适交互》中,Norbert Streitz 和 Shin'ichi Konomi(编辑)。Springer International Publishing,Cham,273–284。[21] Max Kleiman-Weiner、Mark K Ho、Joseph L Austerweil、Michael L Littman 和 Joshua B Tenenbaum。 2016. 协调合作或竞争:社会互动中的抽象目标和共同意图。在 CogSci 中。[22] Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton。2015. 深度学习。自然 521,7553(2015),436–444。[23] Maria D. Molina 和 S. Shyam Sundar。0. 对人类的不信任是否预示着对人工智能的更大信任?个体差异在用户对内容审核反应中的作用。新媒体与社会 0, 0 (0),14614448221103534。https://doi.org/10.1177/14614448221103534 arXiv:https://doi.org/10.1177/14614448221103534 [24] David Premack 和 Guy Woodruff。 1978. 黑猩猩有心智理论吗?行为与脑科学 1, 4 (1978), 515–526。[25] David Premack 和 Guy Woodruff。1978. 黑猩猩有心智理论吗?行为与脑科学 1, 4 (1978), 515–526。https://doi.org/10.1017/S0140525X00076512 [26] Neil Rabinowitz、Frank Perbet、Francis Song、Chiyuan Zhang、SM Ali Eslami 和 Matthew Botvinick。2018. 机器心智理论。国际机器学习会议。PMLR,4218–4227。 [27] Aditya Ramesh、Mikhail Pavlov、Gabriel Goh、Scott Gray、Chelsea Voss、Alec Radford、Mark Chen 和 Ilya Sutskever。2021 年。零样本文本转图像生成。国际机器学习会议。PMLR,8821–8831。//doi.org/10.1177/14614448221103534 arXiv:https://doi.org/10.1177/14614448221103534 [24] David Premack 和 Guy Woodruff。1978 年。黑猩猩有心理理论吗?行为与脑科学 1, 4 (1978),515–526。 [25] David Premack 和 Guy Woodruff。1978 年。黑猩猩有心理理论吗?行为与脑科学 1, 4 (1978),515–526。 https://doi.org/10.1017/S0140525X00076512 [26] Neil Rabinowitz、Frank Perbet、Francis Song、Chiyuan Zhang、SM Ali Eslami 和 Matthew Botvinick。2018 年。机器心智理论。国际机器学习会议。PMLR,4218–4227。[27] Aditya Ramesh、Mikhail Pavlov、Gabriel Goh、Scott Gray、Chelsea Voss、Alec Radford、Mark Chen 和 Ilya Sutskever。2021 年。零样本文本到图像生成。国际机器学习会议。PMLR,8821–8831。//doi.org/10.1177/14614448221103534 arXiv:https://doi.org/10.1177/14614448221103534 [24] David Premack 和 Guy Woodruff。1978 年。黑猩猩有心理理论吗?行为与脑科学 1, 4 (1978),515–526。 [25] David Premack 和 Guy Woodruff。1978 年。黑猩猩有心理理论吗?行为与脑科学 1, 4 (1978),515–526。 https://doi.org/10.1017/S0140525X00076512 [26] Neil Rabinowitz、Frank Perbet、Francis Song、Chiyuan Zhang、SM Ali Eslami 和 Matthew Botvinick。2018 年。机器心智理论。国际机器学习会议。PMLR,4218–4227。[27] Aditya Ramesh、Mikhail Pavlov、Gabriel Goh、Scott Gray、Chelsea Voss、Alec Radford、Mark Chen 和 Ilya Sutskever。2021 年。零样本文本到图像生成。国际机器学习会议。PMLR,8821–8831。