在数字设计上下文中的验证是在释放或部署系统之前测试和验证其行为的过程。这是设计过程的基础部分,由于获得完整覆盖的复杂性,通常需要超过一半的开发时间。传统的验证技术,例如定向测试和约束随机测试,通常无法捕获复杂系统中的关键边缘病例。为了解决这一差距,本论文探讨了钢筋学习(RL)在RISC-V内核的功能验证中的应用,这些核心正在变得越来越流行,特别是通过自动生成的组装代码来增强测试覆盖范围。此调查首先要为RISC-V内核建立一个测试台,旨在使用SystemVerilog(SV)中的通用验证方法(UVM)和Spike指令将模拟器与黄金模型相同。然后将测试台转换为基于Python的环境,使用PYUVM库和Verilator作为模拟器,以启用开源设置。这有助于与流中所需的其余组件的集成,例如自定义指令生成器和覆盖范围集合,为闭环指令生成和核心状态观察提供了灵活的框架。我们此时介绍RL代理,以基于覆盖范围指标和中央处理单元(CPU)状态(例如,注册文件和程序计数器)指导指令生成器。在两种情况下,都进行了不同的状态向量和奖励功能。由于动作空间是如此巨大,并且从未被其他研究作品解决,因此第一代理实施涉及定制的RL代理,依靠体育馆对环境具有标准的API。它使用基于神经网络的深Q学习代理作为函数近似器,分为状态编码器和专业的儿童神经网络(NN),以避免动作空间大小的爆炸。第二种方法使用StableBaseline 3(SB3)库,提供已建立的RL算法,包括近端策略优化和多输入策略。最后,我们将RL代理商获得的训练后结果与通过向指令生成器请求随机指令获得的平均覆盖范围进行了比较。第一代理方法由于NN没有融合而没有显示出任何改进,这是由于
摘要:量子增强学习(QRL)作为加固学习的分支(RL)出现,该分支在算法的体系结构中使用Quantumsodules。QRL的一个分支集中在函数近似值作为函数近似器中,以变异量子电路(VQC)的替换为替换神经网络(NN)。初始作品在具有离散作用空间的经典环境上显示出令人鼓舞的结果,但是VQC的许多拟议的架构设计选择缺乏详细的研究。因此,在这项工作中,我们研究了VQC设计选择的影响,例如角度嵌入,编码块体系结构以及后处理对QRL代理的训练能力的影响。我们表明,VQC设计极大地影响了训练性能,并为分析的组件提供了增强功能。此外,我们还展示了如何设计QRL代理,以便通过连续的动作空间求解经典环境,并基于我们的代理对经典的前馈NNS进行基准测试。
摘要 — 设计能够实现不同游戏风格同时又能保持竞争水平的代理是一项艰巨的任务,尤其是对于研究界尚未发现超人表现的游戏,如策略游戏。这些游戏要求人工智能处理大动作空间、长期规划和部分可观察性,以及其他众所周知的使决策成为难题的因素。除此之外,使用通用算法实现不同的游戏风格而不降低游戏实力并非易事。在本文中,我们提出了用于玩回合制策略游戏 (Tribes) 的具有渐进式反剪枝的组合蒙特卡洛树搜索,并展示了如何对其进行参数化,以便使用质量多样性算法 (MAP-Elites) 来实现不同的游戏风格,同时保持竞争水平。我们的结果表明,即使对于超出用于训练的游戏级别范围的大量游戏级别,该算法也能够实现这些目标。
摘要 - 未来的电力系统将在很大程度上依赖于具有大量分散的可再生能源和能源存储系统的微网格。在这种情况下,高复杂性和不确定性可能会使常规权力调度策略不可行。加强学习者(RL)控制器可以应对这一挑战,但是,不能提供安全保证,以防止其在实践中的部署中。为了克服这一限制,我们提出了一个经济派遣的正式验证的RL控制器。我们通过编码岛屿意外事件的时间相关约束来扩展常规约束。使用基于集合的向后触及性分析来计算偶性约束,RL代理的动作将通过安全层进行验证。不安全的动作被投影到安全的动作空间中,同时利用受约束的划界设置表示以提高效率。使用现实世界测量值在住宅用例上证明了开发的方法。
摘要 — 在高维动作空间中控制双手一直是一个长期挑战,但人类天生就能轻松地完成灵巧的任务。在本文中,我们从人类具身认知中汲取灵感,重新将灵巧手视为可学习的系统。具体来说,我们介绍了 MoDex,这是一个采用神经手部模型来捕捉手部运动动态特征的框架。基于该模型,开发了一种双向规划方法,该方法在训练和推理方面都表现出了很高的效率。该方法进一步与大型语言模型相结合,以生成各种手势,例如“剪刀手”和“摇滚乐”。此外,我们表明,将系统动力学分解为预训练手部模型和外部模型可以提高数据效率,理论分析和实证实验都支持这一点。更多可视化结果可在 https://tongwu19.github.io/MoDex 获取。
摘要 — 建模困难、模型时变和外部输入不确定是燃料电池混合动力汽车能源管理面临的主要挑战。本文提出了一种基于模糊强化学习的燃料电池混合动力汽车能源管理策略,以降低燃料消耗、维持电池的长期运行并延长燃料电池系统的使用寿命。模糊 Q 学习是一种无模型强化学习,可以通过与环境交互进行自我学习,因此无需对燃料电池系统进行建模。此外,燃料电池的频繁启动会降低燃料电池系统的剩余使用寿命。所提出的方法通过在强化学习的奖励中考虑燃料电池启动次数的惩罚来抑制燃料电池的频繁启动。此外,在 Q 学习中应用模糊逻辑来近似值函数可以解决连续状态和动作空间问题。最后,基于 Python 的训练和测试平台验证了所提出方法在初始状态变化、模型变化和驾驶条件变化条件下的有效性和自学习改进。
摘要 - 在视觉和语言导航(VLN)任务中,必须按照自然语言指令导航到目的地。虽然基于学习的方法一直是对任务的主要解决方案,但他们遭受了高培训成本和缺乏解释性的困扰。最近,由于其强大的概括能力,大型语言模型(LLMS)已成为VLN的有前途的工具。但是,现有的基于LLM的方法面临着记忆构建和导航策略多样性的限制。为了应对这些挑战,我们提出了一套技术。首先,我们引入了一种维护拓扑图的方法,该拓扑图存储导航历史记录,保留有关观点,对象及其空间关系的信息。此地图也充当全球动作空间。此外,我们提出了一个思想模块的导航链,利用人类导航示例丰富了导航策略多样性。最后,我们建立了一条管道,将导航记忆和策略与感知和动作预测模块集成在一起。Reverie和R2R数据集的实验结果表明,我们的方法有效地增强了LLM的导航能力并提高导航推理的解释性。
摘要:本文提出了一种分层深度强化学习 (DRL) 方法,用于智能家电和分布式能源 (DER)(包括储能系统 (ESS) 和电动汽车 (EV))的能源消耗调度。与基于离散动作空间的 Q 学习算法相比,该方法的新颖之处在于,使用基于参与者-评论家的 DRL 方法在连续动作空间中调度家用电器和 DER 的能源消耗。为此,提出了一个两级 DRL 框架,其中根据消费者偏好的家电调度和舒适度在第一级调度家用电器,而使用第一级的最优解以及消费者环境特征在第二级计算 ESS 和 EV 的充电和放电计划。在分时定价下,在一个有空调、洗衣机、屋顶太阳能光伏系统、ESS 和 EV 的单个家庭中进行了模拟研究。不同天气条件、工作日/周末和电动汽车驾驶模式下的数值示例证实了所提出方法在电力总成本、储能系统和电动汽车的能量状态以及消费者偏好方面的有效性。
摘要:人形机器人由于其灵活性和类似人类的文化而在各种环境和任务中跨越人类具有巨大潜力。然而,鉴于高维动作空间和双足体系统的固有不稳定,全身控制仍然是一个重大挑战。以前的作品通常依赖于具有计算昂贵的优化的精确动态模型,也可以通过广泛的奖励调整进行特定于任务的培训。在这项工作中,我们介绍了Skillblender,这是一个层次的强化学习框架,首先使用预先设计的密集奖励开发了一系列原始技能,然后重新使用并融合了这些技能,以完成更复杂的新任务,需要最小的特定于任务的奖励工程。我们对两个复杂的机车操作任务进行的模拟实验表明,我们的方法显着胜过所有基础,同时自然地将行为正规化以避免奖励黑客攻击,从而导致更可行的人类样运动。网站:https://sites.google.com/view/wcbm-skillblender/。
抽象的稀疏奖励和样本效率是增强学习领域的开放研究领域。在考虑对机器人技术和其他网络物理系统的增强学习应用时,这些问题尤其重要。之所以如此,是因为在这些领域中,许多任务都是基于目标的,并且自然而然地表达了二进制成功和失败,动作空间较大且连续,并且与环境的实际相互作用受到限制。在这项工作中,我们提出了深层的价值和预测模型控制(DVPMC),这是一种基于模型的预测增强学习算法,用于连续控制,该算法使用系统识别,值函数近似和基于采样的优化对选择动作。该算法是根据密集的奖励和稀疏奖励任务进行评估的。我们表明,它可以使预测控制方法的性能与密集的奖励问题相匹配,并且在样本效率和性能的指标上,在稀疏奖励任务上优于模型和基于模型的学习算法。我们验证了使用DVPMC训练在仿真的机器人上培训的代理商的性能。可以在此处找到实验的视频:https://youtu.be/ 0q274kcfn4c。