摘要 - 在本文中,我们解决了为现代洗衣机开发先进的电机控制系统的挑战,这是在各种条件下运行所需的。传统系统的设计通常依赖于手动反复试验方法,从而限制了增强性能的潜力。为了克服这一点,我们提出了一种新型的持续增强钢筋学习框架,该框架是针对洗衣机的脱水周期期间的平衡维持而定制的。我们的方法引入了延迟的在线更新机制,该机制利用在线互动的某些时期利用了过渡数据。此方法有效地规避了在局部增强学习中通常遇到的分布转移问题。我们的经验结果表明,在各种任务中,包括涉及不同类型的洗衣店的载荷平衡效率的平均平均增加了近16%。这项研究不仅增强了工业环境中强化学习的适用性,而且还代表了智能设备技术开发的重要一步。
在计算最佳策略时使用较短的计划范围的折扣正则化是一个流行的选择,可以避免面对稀疏或嘈杂的数据时过度使用。通常将其解释为脱颖而出或忽略延迟的影响。在本文中,我们证明了折扣正则化的两种替代观点,这些观点暴露了意外后果并激发了新颖的正则化方法。在基于模型的RL中,在较低的折现因子下计划的行为就像先前的,具有更强的州行动对,并具有更多的过渡数据。从数据集中估算过过渡矩阵时,跨州行动对的数据集估算了不均匀的数据集时,这会导致性能。在无模型的RL中,折扣正则化等同于计划使用加权平均贝尔曼更新,在该计划中,代理计划似乎所有州行动对的值都比数据所暗示的更接近。我们的等价定理促使简单的方法通过在本地设置个人状态行动对而不是全球的参数来概括常规ization。我们证明了折扣正则化的失败以及如何使用我们的州行动特定方法在经验示例中使用表格和连续状态空间进行纠正。
摘要:有效但充分的探索仍然是强化学习(RL)的关键挑战,尤其是对于马尔可夫决策过程(MDP),具有巨大的动作空间。以前的方法通常涉及将原始动作空间投射到潜在空间或采用环境动作面具以减少动作的可能性。尽管如此,这些方法通常缺乏可解释性或依赖专家知识。在这项研究中,我们介绍了一种新颖的方法,用于自动降低具有离散动作空间的环境中的动作空间,同时保持可解释性。所提出的方法以双重目的学习了特定于州的面具:(1)消除对MDP最小影响的动作,以及(2)在MDP中具有相同行为后果的汇总行动。具体来说,我们介绍了一个新颖的概念,称为国家(BMA)的行动(BMA)来量化MDP内行动的行为后果,并设计一个专门的掩码模型以确保其二进制性质。至关重要的是,我们提出了一个实用的学习程序,用于培训掩模模型,利用任何RL策略收集的过渡数据。我们的方法旨在插入插件和适应所有RL策略,为了验证其有效性,将其集成到两种突出的RL算法中,即DQN和PPO。从迷宫,Atari和µRTS2获得的实验结果显示在RL学习过程中有很大的加速,并且引入方法促进了促进的性能改善。