在离线RL中,离线数据集通常是由策略的混合物收集的,行为策略可能会表现出:•强大的多模式,•偏度,•不同动作维度之间的依赖性,这不能由对角线高斯政策很好地建模。
逆增强学习(IRL)是一组模仿学习的技术,旨在学习合理的专家演示的奖励功能。不幸的是,传统的IRL方法患有计算弱点:他们需要反复解决艰苦的执行学习(RL)问题作为子例程。从降低的角度来看,这是反直觉的:我们减少了模仿学习的更简单问题,以反复解决RL的更困难问题。另一个工作线索证明,访问强大政策花费时间的状态分布的侧面信息可以大大减少解决RL问题的样本和计算复杂性。在这项工作中,我们首次证明了更明智的模仿学习减少,我们利用了前面的状态分布来减轻RL子例程的全球勘探部分,从而提供了指数的速度。实际上,我们发现我们能够在连续的控制任务上显着加快先前的艺术。
这种全面的分析强调了增强学习的潜力(RL)通过检查其在各种学科中的技术和应用来改变智能决策系统。该研究对几种增强学习(RL)方法的优势和缺点进行了彻底的检查,例如Q学习,深Q-Networks(DQN),策略梯度方法和基于模型的RL。本文探讨了包括机器人技术,自主系统和医疗保健在内的多个领域中的RL应用程序,展示了其在处理复杂决策任务时的适应性。RL在医疗保健领域表现出了管理临床资源,识别慢性疾病和改善患者疗法的希望。机器人技术使用加固学习(RL)来创建自动导航和自适应运动技能。该研究强调了增强学习(RL)在管理高维状态空间,延迟奖励和无模型学习方面的优势,但它们还指出了某些缺点,包括样本效率低下和探索 - 开发折衷。本文强调了跨行业增强学习(RL)的灵活性和潜在影响,从而为从业者和学者提供了希望在智能系统中利用RL提供深刻信息的信息。在现实世界中,自适应决策的未来可能是由RL与其他AI方法的集成(例如深度学习和转移学习)的整合来塑造的,这可以进一步扩大其对越来越复杂的领域的适用性。关键字:加固学习,机器学习,人工智能,健康,机器人
摘要 - 灌溉调度的任务涉及在整个生长季节的整个过程中依次建立要向现场施用的灌溉的时间和数量。此任务可以概念化为马尔可夫决策过程。强化学习(RL)是一种机器学习方法,利用与环境互动获得的奖励来指导行为,并逐步制定了一种最大化累积奖励的策略,非常适合管理诸如灌溉计划之类的顺序决策过程。深度RL是RL与深度学习技术的结合,有可能为复杂的国家提供复杂的认知决策挑战提供新颖的解决方案。在这项研究中,将提出一种基于RL的灌溉计划方法,以增强灌溉应用中经济回报的优化。此方法涉及计算每个步骤的灌溉量,同时服用蒸散量(ET),土壤水分,未来的沉淀概率以及当前的作物生长阶段。模拟结果显示,经济回报率有显着改善,潮湿季节和旱季分别为5.7%和17.3%,而节水效应类似于传统的基于阈值的方法。
摘要 - 基于数据所有者的删除请求对机器学习模型的特定培训数据对机器学习模型的影响的过程。但是,在学习研究中很大程度上忽略了一个重要领域是强化学习。强化学习的重点是培训代理,以在环境中做出最佳决策,以最大程度地提高其累积奖励。在培训期间,代理商倾向于记住环境的特征,这引起了人们对隐私的重大关注。根据数据保护法规,环境的所有者有权撤销对代理商培训数据的访问权,因此必须开发一个新的研究领域,称为加固。加固的学习重点是撤销整个环境而不是单个数据样本。这个独特的特征提出了三个不同的挑战:1)如何针对环境提出学习方案; 2)如何避免在剩余的环境中降低代理商的演出; 3)如何评估学习的有效性。为了应对这些挑战,我们提出了两种加强学习方法。第一种方法基于减少强化学习,该学习旨在逐渐消除代理商以前获得的知识。第二种方法利用环境中毒攻击,这鼓励代理商学习新的,尽管不正确,但知识以消除未学习的环境。尤其是为了应对第三项挑战,我们介绍了“环境推论”的概念,以评估未学习的结果。源代码可在https://github.com/cp-lab-uts/reinforcement-unlearning上找到。
Luca Viano,Igor Krawczuk,Ali Kavis,Ahmet,Ahmet,Grigorios Chrysos,Abranes,Law,Adrian,Adrian Meler,Adrian Meler,Adrian Meler,Adrian Meler,Yongtao Wu。
强化学习(RL)借助深度神经网络中的广告,使多样化的学科中的重大分解。一些早期的亮点是在计算机游戏中(Mnih等,2015),国际象棋和GO(Silver等,2016)和机器人技术(Lillicrap等,2015; Haarnoja等,2018b)。最近的高光包括开发有效的算法,例如矩阵乘法(Fawzi等,2022)和分类(Mankowitz等,2023)。RL在天文学上也有一些应用。Telescope automation is closely related to robotics and RL can be used in telescope control including adaptive optics (Nousiainen et al., 2022; Landman et al., 2021; Nousiainen et al., 2021) and adaptive reflective surface control (Peng et al., 2022) as well as in observation scheduling (Jia et al., 2023a,b, 2022)。进一步向下数据流,RL已应用于射电天文数据处理管道(Yatawatta and Avruch,2021; Yatawatta,2023)进行超参数调整。将模范天文学视为从观察望远镜到科学家的数据流或信息,我们可以看到RL的更多应用以帮助和完善这种流程并激发该出版物。几种方法属于机器学习的伞(ML):监督学习是最常用的方法,在该方法中既可以赋予计算机的输入和所需的输出,以学习执行某个任务。无监督