我们提出了Pymarketsim,这是一种金融市场模拟环境,旨在使用深入加固学习(DRL)培训和评估交易代理。我们的基于代理的环境结合了关键要素,例如私人估值,不对称信息和灵活的限制订单簿机制。我们通过包括单代理和多代理DRL设置在内的实验来揭示平台的效率和多功能性。对于单一代理设置,我们展示了如何使用我们的环境来学习作为反复构建神经网络实施的背景交易策略。这些受过训练的响应顺序网络(TRON代理)可以灵活地将其行为在观察到的市场特征上调节。在多代理级别,我们使用经验游戏理论技术来识别TRON代理的平衡配置。我们的开源实施为研究人员和从业人员提供了一种强大的工具,用于研究复杂的市场动态,开发高级交易算法以及探索由机器学习驱动的金融生态系统的新兴行为。
摘要。本文调查了加固学习(RL)在股票价格预测中的应用,突出了其潜力和局限性。我们探讨了如何使用RL来优化交易策略,管理投资风险,找到套利机会并预测趋势。评论根据数据频率(高/非高高)和目标(预测/交易策略)对研究对象和方法进行了分类。我们分析了各种资产类别(股票,外汇等)和模型(RL,神经网络,LSTMS)在以前的工作中使用。关键发现表明,通过适应复杂的市场动态,RL比传统模型具有优势,并且结合情感分析可以进一步提高其有效性。我们确定了未来研究的有希望的途径,包括混合模型,更深层的情感整合以及改善风险管理。总体而言,该论文得出结论,RL对转变财务预测有很大的希望,从而提供了更准确和适应能力的决策工具。
自 2017 年人工智能新加坡 (AISG) 成立以来,我们一直致力于打造一个充满活力且可持续的人工智能生态系统。通过汇集新加坡的研究机构和人工智能初创企业和公司,让他们可以共享知识并开发产品、人才和工具,我们可以发展推动数字经济向前发展的关键能力。
强化学习(RL)在各种应用中显示出巨大的潜力;但是,它在复杂的工业过程中的应用尚待广泛探索。这项工作旨在通过概念研究证明RL在过程工程和控制中的潜力,以证明RL在催化反应器系统中的实时优化(RTO)的应用。目的是在确保过程限制的同时最大化高价值烃的产生。使用了合适的参与者-Critic RL体系结构,并将结果与基于数学优化的基于求解器的基准Mark进行了比较。该研究还评估了Microsoft Project Bonsai的功能,该计划是设计自动系统的AI平台。这项工作的主要贡献包括证明RL在化学过程中的RL应用程序中的应用,分解了RL的适应性和快速推理时间,以及在政策网络培训期间提供处理约束的方法。结果表明,RL可以找到与基于优化的基准相当的可行解决方案。
摘要 - 用于优化问题的元数据包括粒子群优化(PSO)技术。他们从表现出集体行为的鱼类和鸟类的协调运动中获取线索。人工神经网络(ANN)需要一个复杂的学习阶段,例如后传播,被认为是人工智能的来源(AI)。此阶段允许计算每个神经元的误差梯度,从最后一层到第一个。但是,目标函数的某些特质是必需的(成本)。这促使我们尝试使用元映射学,以简化ANN的训练,以管理复杂的非线系统。这项研究的目的是应用深度加固学习(DRL)自动计算PSO算法的参数,同时还优化了ANN的监督学习过程。经过许多案例研究,我们的方法始终导致理想ANN的系数。
在演绎域中,升序顺序的三种元认知知识类型是声明性,程序性和有条件学习。这项工作利用了深入的强化学习(DRL)提供自适应元认知干预措施,以弥合三种知识类型之间的差距,并为学生做好准备,使学生在跨越智能的辅导系统(ITS)中为未来的学习做好准备。学生收到了这些干预措施,这些干预措施教会了如何以及何时在支持默认向前链式策略的逻辑导师上使用向后策略(BC)策略。六个星期后,我们培训了学生的概率导师,该导师仅在没有干预的情况下支持BC。我们的结果表明,在ITS上,DRL弥合了学生之间的元认知知识差距,并显着提高了他们的学习表现,而不是控制同伴。此外,DRL政策适合于宣言,程序和有条件的学生对逻辑导师的元认知发展,导致他们的战略决策更加自治。关键词:深度强化学习;为将来的学习做准备;智能辅导系统;声明性知识;程序知识;有条件的知识
摘要。指挥和控制系统将来自多个底层系统的信息集中起来,以支持操作员执行任务。除了任务本身(可能很复杂)之外,操作员还必须确保这些系统(通常称为平台)的正确运行。平台系统(例如发动机或电气系统)可能彼此非常不同,并表现出大量的功能状态。当应用于指挥控制系统的设计时,以用户为中心的设计方法支持理解和捕捉操作员执行任务的需求,以及提出设计可用的任务相关用户界面的解决方案。但是,平台管理的用户界面需要呈现和组织有关底层复杂系统的信息。理解这些系统并抽象出有关其行为的信息(以便操作员可以管理它们)需要超出 UI/UX 设计师和 UCD 方法专家的深厚知识。在本文中,我们提出了一个以系统为中心的过程,该过程将补充 UCD 方法用于指挥和控制系统的设计。该过程将底层系统的详细功能作为输入,并提供抽象和结构化信息以告知 UCD 方法。除了支持可用性属性之外,集成过程还支持 UCD 方法通常忽略的可靠性和安全性属性。我们介绍了所提出的流程如何应用于大型民用商用飞机预警系统的设计,并展示了对其他领域的通用性。
针对深厚复合地层TBM隧道小比例模型试验中开挖、管片模拟、变形、受力等难题,综合利用TBM模拟实验装置、模型管片环预制装置、数字摄影测量技术,提出计算方法。通过对围岩变形特征及破裂分析,揭示了围岩变形的时空效应:(1)无支撑时,围岩变形的时空效应集中在以下工况:随着时间的推移,围岩变形从复合地层交界处的拱腰两侧开始,衍生出四个圆弧并发生剪切滑移,导致整体垮塌破坏。(2)支撑后,围岩变形的时空效应集中在围岩与支撑相互作用的3个阶段,即初期阶段、平衡过程和失稳状态。空间效应集中在围岩变形破坏区域,最严重区域为浅层围岩,次剧烈区域为边墙拐角处。