通常,马尔可夫决策过程是“一个离散的随机控制过程。它提供了一个数学框架,用于在结果部分是随机的,部分地在决策者控制的情况下对决策进行建模。MDP是有用的研究通过动态编程解决的优化问题。”(Wikipedia)
§ 探索:你必须尝试未知的动作来获取信息 § 利用:最终,你必须使用你所知道的东西 § 遗憾:即使你聪明地学习,你也会犯错 § 抽样:因为偶然,你必须反复尝试 § 难度:学习比解决已知的 MDP 困难得多
高效率和低能量损失的摘要,高温超导体(HTS)已经证明了它们在各种领域的深刻应用,例如医学成像,运输,加速器,微波设备和电力系统。HTS录像带的高领域应用增加了对超级导管制造中长度长度的具有长度长度的具有成本效益的磁带的需求。但是,由于制造过程中的不稳定生长条件,长HTS胶带的统一和增强性能是具有挑战性的。尽管证实了高级金属有机化学蒸气沉积(A-MOCVD)过程中的过程参数影响所产生的HTS磁带的均匀性,但高维过程参数信号及其复杂的相互作用使得很难制定有效的控制策略。在本文中,我们提出了一项本地措施,以实现HTS磁带的统一性,以便为我们的控制政策提供即时反馈。然后,我们将HTS磁带的制造建模为Markov决策过程(MDP),具有连续的状态和动作空间,以在我们的反馈控制模型中实时评估即时奖励。由于我们的MDP涉及连续和高维状态和动作空间,因此采用神经拟合的Q-介质(NFQ)算法来用人工神经网络(ANN)功能近似来求解MDP。过程参数的共线性可以限制我们调整过程参数的能力,这是我们方法中主要组件分析(PCA)解决的。控制策略使用NFQ算法调整了过程参数的PCA。基于我们对实际A-MOCVD数据集的案例研究,获得的控制策略将磁带的平均统一性提高了5.6%,并且在较低均匀性的样品HTS磁带上的表现尤其很好。
在许多网络物理系统中,我们遇到了对地理分布和远程物理过程的远程状态估计的问题。本文研究了传感器传输的调度,以估计多个遥控,动态过程的状态。来自不同传感器的信息必须通过无线网络传输到中央门户,以进行监视,其中通常比需要监视的过程更少可用的无线通道。要在网关上有效估算,需要适当地安排传感器,即在每次即时需要确定哪些传感器访问网络且不能确定哪些传感器。为了解决这个调度问题,我们制定了关联的马尔可夫决策过程(MDP)。然后使用深Q-Network解决此MDP,这是一种最近的深层增强学习算法,它立即可扩展且无模型。我们将调度算法与流行的日程安排算法进行比较,例如循环蛋白和降低的等待时间等。对于许多示例场景,我们的算法显示出明显优于这些算法。©2019 Elsevier Ltd.保留所有权利。
强化学习(RL)在使大语言模型(LLMS)与人类偏好相结合并提高其执行复杂任务的能力方面起着至关重要的作用。但是,由于使用多种模型和大量的在线抽样培训(例如PPO),当前的方法要么需要大量的计算资源(例如,PPO),要么被用作匪徒问题(例如,DPO,DRO),通常在多步理学任务中挣扎,例如数学问题和复杂的推理,涉及较长的思想链条。为了克服这些局限性,我们引入了直接的Q-功能优化(DQO),该优化将响应生成过程作为马尔可夫决策过程(MDP),并利用软actor-Critic(SAC)框架来优化语言模型直接参数参数的Q函数。DQO的MDP公式提供了比基于匪徒的方法的结构优势,从而实现了更有效的过程监督。对两个数学解决问题数据集GSM8K和数学的实验结果表明,DQO胜过以前的方法,将其确定为一种有希望的离线强化学习方法,以使语言模型对齐。
我们在这里考虑马尔可夫决策过程(MDPS),总体知识是已知的过渡和奖励功能。主要有两种有效的方法,可以使用基于模型的方法来精确求解MDP:动态编程或线性程序,如[11]中所述。确定解决MDP问题的最有效方法一直是文献研究的主题。有关全面的审查,请参阅[1]以及[11,9]。根据[11],有人认为,基于价值的算法(例如价值迭代(VI)及其变体)并不像基于政策的方法那样实用,因此建议避免使用。另一方面,对基于策略的方法进行了比较下注政策迭代(PI)和政策迭代(PIM)尚不清楚,尽管后者似乎更有效[11]。早期的发现表明,线性编程方法不适合解决此类问题,这主要是由于求解器的速度慢[9]。尽管如此,文献中的比较研究有限,截至2007年,这个问题仍未解决[10]。随着线性编程求解器(例如Gurobi或cplex)的性能不断提高,以及并行化可能性的进步,对求解方法的定期重新评估变得相关。因此,在[1]的研究中,对线性编程和政策迭代的性能进行了比较分析,是对特定的马尔可夫决策过程(MDP)模型进行的,重点介绍了预期的总奖励标准。非零条目的1%。所考虑的MDP的特征是较大的状态空间(基数至少为2000),并且表现出各种动作选择(范围为2至500)。值得注意的是,所有过渡矩阵都高度稀疏,仅包含1%和0。先前的研究采用内点方法来解决线性程序。他们认为线性编程(LP)优于策略迭代(PI),并且对于特定模型而言,这显着。必须注意,[1]检查的模型类别在文献中很普遍,尤其是在给定状态下可能的转移数量的网络问题中。尽管如此,该研究仍具有一定的局限性。首先,即使这些方法可能会超过速度上的标准PI,但它并未考虑修改策略迭代及其变体。其次,研究中采用的LP解决方法仅提供政策而不是政策和价值观,就像动态编程一样。最后,其结论对更稀疏或其他操作标准的更广泛案例的概括性仍然不确定。这项工作的目的是找出线性编程在更一般的情况下是否仍然是一种有效的工具,并且在哪些条件(状态空间和行动空间维度,稀疏性)下找到使用动态编程仍然有效。
摘要 - 由于蜂窝网络的资源分配不是动态的,由于意外事件,某些单元可能会遇到计划外的高流量需求。无人机(UAV)可用于提供数据卸载所需的额外带宽。考虑实时和非实时交通类别,我们的工作专门用于通过两种方法优化无人机在蜂窝网络中的位置。可以嵌入无人机中的第一个基于规则的低复杂性方法,而另一种方法则使用加固学习(RL)。它基于马尔可夫决策过程(MDP)提供最佳结果。已经考虑了无人机电池的能量和充电时间限制,以涵盖由许多细胞组成的典型细胞环境。,我们为Italia提供的米兰蜂窝网络使用了一个开放数据集,以评估两个建议的模型的性能。考虑到此数据集,MDP模型的表现优于基于规则的算法。尽管如此,基于规则的一个人需要更少的处理复杂性,并且可以立即使用任何先前数据。这项工作为在现代蜂窝网络中开发无人机部署的实用和最佳解决方案做出了显着贡献。
• Chris Drummond,肯特郡、安妮女王多切斯特郡,郡检察官 • Keith Lackie,下东岸地区规划师,MDP • Jill Baker,华盛顿郡规划总监 • Eric Soter,弗雷德里克郡前规划总监;其他 • Sharon Suarez,弗雷德里克市规划师;弗雷德里克郡前规划专员 • Cynthia Unangst,米德尔敦市政工作人员规划师