摘要。金融业始终认为股市预测至关重要。近年来,加强学习技术在股票市场预测中的应用引起了人们的关注。这项研究旨在使用深Q-NETWORKS(DQN)和Double Deep Q-Network(DDQN)进行探索,以进行库存预测。历史股票价格和相关市场数据被用作构建培训DQN和DDQN模型的强化学习环境的输入。这些模型的目的是通过学习最佳政策来预测股票的未来价格趋势。结果表明,DQN和DDQN模型在股票市场预测任务中均表现出强大的性能。与传统指标的方法相比,他们能够更准确地捕获股市的非线性特征和动态变化。此外,DDQN模型在某些指标中显示出略高的结果,表明将目标网络用于稳定训练可以改善预测性能。这些发现对投资者和财务机构具有重要意义,为投资策略和风险管理提供了宝贵的见解。此外,通过探索在股票市场预测中的强化学习方法的应用,该研究为金融领域的进一步研究提供了新的观点。但是,市场的复杂性和不确定性可能会影响预测绩效。未来的研究可以集中于增强模型架构,优化培训算法以及考虑其他市场信息的公司,以提高预测的准确性和鲁棒性。
这项研究对三种高级深度强化学习模型进行了比较分析 - 深Q-Networks(DQN),近端策略优化(PPO)和Advantage Actor-Critic(A2C) - 仅在突破性的Atari游戏环境中。我们的研究旨在在单数,受控的环境中评估这些模型的性能和有效性。通过严格的实验,我们检查了每个模型在游戏动态条件下的学习效率,策略的发展和适应性。这些发现为这些模型在基于游戏的学习环境中的实践应用提供了关键的见解,并有助于更广泛地理解其在特定的,集中的场景中。代码可公开:github.com/neilus03/drl_comparative_study
这项研究对三种高级深度强化学习模型进行了比较分析 - 深Q-Networks(DQN),近端策略优化(PPO)和Advantage Actor-Critic(A2C) - 仅在突破性的Atari游戏环境中。我们的研究旨在在单数,受控的环境中评估这些模型的性能和有效性。通过严格的实验,我们检查了每个模型在游戏动态条件下的学习效率,策略的发展和适应性。这些发现为这些模型在基于游戏的学习环境中的实践应用提供了关键的见解,并有助于更广泛地理解其在特定的,集中的场景中。代码可公开:github.com/neilus03/drl_comparative_study
摘要目的:开发一个控制系统,以防止对乳制品业务的供应链的过度响应。方法:使用了以下方法:DQN,Double DQN,Dueling DQN和Dueling Double DQN以确定需求的分布:正常和均匀。结果:根据学习稳定性(最后10,000集)计算结果。观察到DQN和DDQN的平均值非常相似。为了验证DQN算法的性能是否比DQN算法的性能更好,进行了非参数测试以比较两个相关样本的平均等级,并确定它们之间是否存在差异。对于正常和均匀分布的P值分别为5.83e -38和0.000。结论:最佳结果的算法是DUELing DQN,需求的平均总成本为151.27单位,正态分布,平均为155.3个单位,需求均匀分布。一旦达到收敛性,此方法的可变性就会降低。
引言目前,光刻是多种半导体器件和集成电路一般生产周期中的主要工艺之一。重氮喹诺酮酚醛 (DQN) 光刻胶广泛用作亚微米和纳米光刻的掩模 [1–4]。现代电子学中形成掺杂区的主要方法之一是离子注入 (II)。该方法可以精确控制掺杂剂浓度,且具有工艺多功能性和灵活性的特点。DQN 光刻胶与紫外线、X 射线和可见辐射的相互作用已得到充分详细研究,而离子辐照引起的过程仍然知之甚少,尽管它们会显著影响所创建器件的质量 [4–6]。在聚合物的 II 期间,辐射诱导过程先前已被证明会发生在离子路径区域内及其外部 [5, 7–9]。例如,在 [5] 中发现了 DQN 抗蚀剂膜在锑离子注入层后面的辐射硬化。然而,导致 II 层后面的 DQN 抗蚀剂的物理机械性能发生变化的辐射诱导过程的机制尚未确定。对于薄膜研究,受抑全内反射 (TIR) 的 FTIR 光谱可以定性和定量地获取固体中复杂有机化合物及其混合物的成分和结构
巷道保存是自动驾驶中至关重要的功能,对于车辆安全,稳定性和遵守交通流量很重要。巷道控制控制的复杂性在于平衡各种驾驶环境的精确性和响应能力。本文对两种强化学习(RL)算法进行了比较检查 - Double Deep Q-Network(Double DQN)和近端策略优化(PPO) - 用于跨离散和连续动作空间的车道。double dqn是对标准深q网络的升级,消除了q值的高估偏差,证明了其在离散作用空间中的有用性。这种方法在高维环境(如高速公路)等低维环境中发光,在该环境中,车道保存需要经常进行离散的修改。相比之下,PPO是一种用于连续控制的强大政策梯度方法,在高维情况(例如城市道路和弯曲的高速公路)中表现良好,在这种情况下,必须进行持续的,准确的转向变化。在MATLAB/SIMULINK模拟中测试了这些方法,以模拟高速公路和城市驱动环境。每个模型都集成了车辆动力学和神经网络拓扑以构建控制技术。结果表明,双DQN始终保持在高速公路设置中的车道位置,从而利用了其最小化Q值高估的能力,从而达到了稳定的车道居中。ppo在动态和不可预测的设置中超出了持续的控制调整,尤其是在困难的交通状况和弯曲道路上。这项研究强调了将RL算法与特定驾驶环境的动作空间要求相匹配的重要性,在离散任务方面具有双重DQN,并且在连续自适应控制方面具有出色的DQN和PPO,从而有助于提高自主汽车的灵活性和安全性。
摘要:钒氧化还原电池(VRFB)在过去几十年中在混合储能系统(HESS)中发挥了重要作用,这是由于其独特的特征和优势。因此,对VRFB模型的准确估计在大规模存储应用中非常重要,因为它们对于在嵌入式能源体系结构中纳入了储能系统和控制算法的独特特征是必不可少的。在这项工作中,我们提出了一种新颖的方法,该方法结合了基于模型的和数据驱动的技术来预测电池状态变量,即电荷状态(SOC),电压和电流。我们的建议利用增强了深层增强学习技术,特别是深层Q学习(DQN),通过将Q学习与神经网络相结合以优化VRFB特异性参数,从而确保真实数据和模拟数据之间的稳健拟合度。我们提出的方法在电压预测中的现有方法优于现有方法。随后,我们通过纳入了第二种深度RL算法(Dueling DQN)来增强所提出的方法,这是DQN的改进,结果提高了10%的结果,尤其是在电压预测方面。所提出的方法导致了准确的VFRB模型,该模型可以推广到几种类型的氧化还原流量。