在本研究中,将深度确定性策略梯度 (DDPG) 算法(该算法由人工神经网络和强化学习组成)应用于垂直起飞和着陆 (VTOL) 系统模型以控制俯仰角。之所以选择该算法,是因为传统控制算法(例如比例-积分-微分 (PID) 控制器)无法始终生成合适的控制信号来消除干扰和不必要的环境对所考虑系统的影响。为了控制该系统,在 Simulink 环境中对 VTOL 系统数学模型中的正弦参考进行训练,通过深度强化学习方法中具有连续动作空间的 DDPG 算法,该算法可以产生控制动作值,这些动作值采用能够根据确定的奖励函数最大化奖励的结构,以实现控制目的和人工神经网络的泛化能力。对于正弦参考和恒定参考,将俯仰角(指定 VTOL 系统的输出)的跟踪误差性能与传统 PID 控制器在均方误差、积分平方误差、积分绝对误差、百分比超调和稳定时间方面的性能进行了比较。通过模拟研究给出了得到的结果。
已经假设抽象的不同大脑系统来处理8个竞争以产生行为的“专家”。在增强学习中,两个通用过程,一个无模型的9(MF)和一个基于模型的(MB),通常被建模为代理(MOA)的混合物(MOA)和10个假设,以捕获自动性与审议之间的差异。但是,静态MOA无法捕获11个策略的变化。为了研究这种动态,我们提出了12个代理的隐藏马尔可夫模型(MOA-hmm),同时从一组代理中学习了13个动作值,以及基本“隐藏”的时间动态,即随着时间的推移,代理贡献中14个捕获转移。将此模型应用于大鼠的多步,15个奖励指导的任务,揭示了会议内策略的进展:从最初的16 MB探索到MB剥削,并最终降低了参与度。被推论的状态17预测任务过程中响应时间和OFC神经编码的变化,这表明18个状态正在捕获动力学的实际转移。19
已经假设抽象的不同大脑系统来处理8个竞争以产生行为的“专家”。在增强学习中,两个通用过程,一个无模型的9(MF)和一个基于模型的(MB),通常被建模为代理(MOA)的混合物(MOA)和10个假设,以捕获自动性与审议之间的差异。但是,静态MOA无法捕获11个策略的变化。为了研究这种动态,我们提出了12个代理的隐藏马尔可夫模型(MOA-hmm),同时从一组代理中学习了13个动作值,以及基本“隐藏”的时间动态,即随着时间的推移,代理贡献中14个捕获转移。将此模型应用于大鼠的多步,15个奖励指导的任务,揭示了会议内策略的进展:从最初的16 MB探索到MB剥削,并最终降低了参与度。被推论的状态17预测任务过程中响应时间和OFC神经编码的变化,这表明18个状态正在捕获动力学的实际转移。19
摘要传统上,近似动态编程用于对话产生,通过行动采样来改进贪婪的政策,因为自然语言动作空间很大。然而,由于具有高动作值的合格响应的稀疏性,这种做法效率低下,这会导致随机抽样持续的较弱的改善。本文介绍了理论分析和实验,揭示了对话策略的性能与采样大小正相关。为了克服这一局限性,我们引入了一种新型的双重粒度Q-功能,该功能探讨了干预采样过程的最有希望的响应类别。我们的方法根据粒状层次结构提取行动,从而在较少的政策迭代中实现了最佳效果。此外,我们使用离线RL,并从旨在捕捉人类互动中情感细微差别的多种奖励功能中学习。实证研究表明,我们的算法在自动指标和人类评估之间优于基准。进一步的测试表明,我们的算法既具有解释性又具有可控性,并且产生了具有更高预期奖励的响应。
已经假设抽象的不同大脑系统来处理8个竞争以产生行为的“专家”。在增强学习中,两个通用过程,一个无模型的9(MF)和一个基于模型的(MB),通常被建模为代理(MOA)的混合物(MOA)和10个假设,以捕获自动性与审议之间的差异。但是,静态MOA无法捕获11个策略的变化。为了研究这种动态,我们提出了12个代理的隐藏马尔可夫模型(MOA-hmm),同时从一组代理中学习了13个动作值,以及基本“隐藏”的时间动态,即随着时间的推移,代理贡献中14个捕获转移。将此模型应用于大鼠的多步,15个奖励指导的任务,揭示了会议内策略的进展:从最初的16 MB探索到MB剥削,并最终降低了参与度。被推论的状态17预测任务过程中响应时间和OFC神经编码的变化,这表明18个状态正在捕获动力学的实际转移。19
近年来,通过计算分析功能性磁共振成像(fMRI)数据来发现大脑有效连接(EC)网络在神经科学和神经成像领域引起了广泛关注。然而,由于数据采集和处理过程中受到多种因素的影响,fMRI数据通常表现出高噪声和有限的样本特征,从而导致当前方法的性能不佳。在本文中,我们提出了一种基于元强化学习的新型大脑有效连接发现方法,称为MetaR-LEC。该方法主要包含三个模块:参与者、评论家和元评论家。MetaRLEC首先采用编码器-解码器框架:编码器利用转换器将嘈杂的fMRI数据转换为状态嵌入,解码器采用双向LSTM从状态中发现大脑区域依赖关系并生成动作(EC网络)。然后,批评网络评估这些动作,激励参与者在高噪音环境中学习更高回报的动作。最后,元批评框架促进历史状态动作对的在线学习,整合动作值神经网络和补充训练损失,以增强模型对小样本 fMRI 数据的适应性。我们对模拟数据和现实世界数据进行了全面的实验,以证明我们提出的方法的有效性。
摘要 — 提出了一种新颖的框架,借助车对基础设施 (V2I) 通信网络提高自动驾驶汽车 (AV) 的驾驶安全性和燃油经济性。驾驶轨迹设计问题旨在最小化总燃料消耗,同时提高驾驶安全性(通过遵守交通规则和避开障碍物)。为了解决这个相关问题,提出了一种深度强化学习 (DRL) 方法来做出无碰撞决策。首先,提出了一种深度 Q 网络 (DQN) 辅助算法,通过从基站 (BS) 接收实时交通信息来确定 AV 的轨迹和速度。更具体地说,AV 充当代理,通过与环境交互来执行最佳动作,例如变道和变速。其次,为了克服 Q 学习模型对动作值的过高估计,提出了一种双深度 Q 网络 (DDQN) 算法,将最大 Q 值操作分解为动作选择和动作评估。此外,还提出了三种实用的驾驶策略作为基准。数值结果证明,所提出的轨迹设计算法能够提高 AV 的驾驶安全性和燃油经济性。我们证明了所提出的基于 DDQN 的算法优于基于 DQN 的算法。此外,还证明了从 DRL 算法衍生而来的基于燃油经济性 (FE) 的驾驶策略能够比基准节省超过 24% 的燃油。
高频交易(HFT)使用计算机算法在短时间(例如第二级)中做出交易决策,该决策被广泛用于加密货币(Crypto)市场(例如比特币)。钢筋学习(RL)在Financial Research中表明,在许多Quantative交易任务上表现出色。但是,大多数方法都集中在低频交易上,例如日级,由于两个挑战,不能直接应用于HFT。首先,用于HFT的RL涉及处理非常长的轨迹(例如每月240万步),这很难优化和评估。其次,加密货币的急剧价格波动和覆盖趋势变化使现有算法无法保持令人满意的性能。为了解决这些挑战,我们提出了一种用于Hig f Reding(Earnhft)的方法,这是一个新颖的HFT三阶段层次RL框架。在第一阶段,我们计算了一个基于动态编程的最佳动作值,以提高二级RL代理的绩效和训练效率。在第二阶段,我们为不同的市场趋势构建了不同的RL代理,以回报率为特色,其中数百个RL代理人接受了不同的回报率偏好训练,只有一小部分将根据其盈利能力选择到池中。在第三阶段,我们训练了一个分钟级别的路由器,该路由器动态从泳池中挑选第二级代理商,以在不同市场上取得稳定的性能。通过在高保真仿真交易环境中对加密市场的各种市场趋势进行广泛的实验,我们证明,在3个流行的财务标准中,Earnhft显着超过了6个最先进的基线,超过了亚军的盈利者30%。