强化学习(RL)是机器学习中的一个活跃子区域,已成功应用于解决复杂的决策问题,例如玩棋盘游戏[31,32]和视频游戏[22] [22],自主驾驶[18,21],以及最近,将大型语言模型和文本生成模型与人类的preference preferfection and-to anclight [18,21]。RL研究主要集中在离散时间和空间中的马尔可夫决策过程(MDP)上。有关MDP的理论和应用的详细说明,请参见[34]。Wang,Zariphopoulou和Zhou [40]是第一个使用受控扩散过程的RL制定和开发RL的熵调查的,探索性控制框架的人,该过程固有地与连续状态空间和可能的连续作用(可能连续的动作(控制)空间)。在此框架中,随机放松控制被用来表示探索,从而捕获了RL核心的“反复试验”概念。随后的工作旨在通过Martingale方法[14、15、16]和政策优化在连续时间内为无模型RL奠定理论基础[44]。在这里,“无模型”是指潜在的动力学是扩散过程,但是它们的系数以及奖励函数是未知的。[14,15,16]的关键见解是,可以从基于连续时间RL的Martingale结构中得出学习目标。这些论文中的理论结果自然会导致一般RL任务的各种“无模型”算法,因为它们直接直接学习最佳策略而无需尝试学习/估计模型参数。这些算法中的许多算法恢复了通常以启发式方式提出的MDP的现有RL算法。然而,对MDP的RL研究占据了中心阶段的算法的融合和遗憾分析仍然缺乏扩散率。To our best knowledge, the only works that carry out a model-free convergence analysis and derive sublinear regrets are [12] for a class of stochastic linear–quadratic (LQ) control problems and [11] for continuous-time mean–variance portfolio selection, both of which apply/apapt the policy gradient algorithms developed in [15] and exploit heavily the special structures of the problems.本文的目的是通过对[16]中引入的(小)Q学习的定量分析以及通常非线性RL问题的相关算法来填补这一空白。(big)Q-学习是离散时间MDP RL的关键方法,但Q功能在连续的时间内崩溃,因为它不再依赖于时间步长无限时间小时的操作。[16]提出了Q功能的概念,Q功能是Q功能在时间离散化方面的第一阶导数。
Andreas,J。,Klein,D。和Levine,S。(2017)。 模块化多任务增强措施学习政策草图。 Law,M.,Russo,A。和Broda,K。(2015)。 用于学习答案集程序的ILASP系统。 Sutton,R。S.,Precup,D。和Singh,S。P.(1999)。 MDP和半MDP之间:增强学习中时间抽象的框架。 Toro Icarte,R.,Klassen,T。Q.,Valenzano,R。A.和McIlraith,S。A. (2018)。 使用奖励机进行高级任务规范和强化学习中的分解。Andreas,J。,Klein,D。和Levine,S。(2017)。模块化多任务增强措施学习政策草图。Law,M.,Russo,A。和Broda,K。(2015)。 用于学习答案集程序的ILASP系统。 Sutton,R。S.,Precup,D。和Singh,S。P.(1999)。 MDP和半MDP之间:增强学习中时间抽象的框架。 Toro Icarte,R.,Klassen,T。Q.,Valenzano,R。A.和McIlraith,S。A. (2018)。 使用奖励机进行高级任务规范和强化学习中的分解。Law,M.,Russo,A。和Broda,K。(2015)。用于学习答案集程序的ILASP系统。Sutton,R。S.,Precup,D。和Singh,S。P.(1999)。MDP和半MDP之间:增强学习中时间抽象的框架。Toro Icarte,R.,Klassen,T。Q.,Valenzano,R。A.和McIlraith,S。A.(2018)。使用奖励机进行高级任务规范和强化学习中的分解。
马尔可夫决策过程(MDPS)我们假定无限 - 摩尼克折扣的MDP M =(s,a,p⋆,r⋆,γ,s Init)的标准符号为真实环境,其中s in Init是disteristion的初始状态W.L.L.O.G.所有奖励都被认为是在[0,r max]中界定的,而v max:= r max /(1 -γ)是累积奖励和价值函数上的上限。我们假设s很大,因此不适用表格方法。在大多数情况下,我们考虑有限和小动作空间,但有些主张也在大型动作空间中。给定策略π,其预期回报为jm⋆(π):= em⋆,π[p∞t= 0γt r t]。有时,尤其是在反例中,考虑H-步骤有限的Horizon问题会更容易,其中预期的回报定义为(滥用符号)Jm⋆(π):=eπ[p h h = 1 r h]。
强化学习(RL)研究代理如何在未知环境中以奖励反馈来表现。环境通常被建模为马尔可夫决策过程(MDP)。在标准设置中,假定MDP是静态的,即,随着时间的推移,状态过渡内核和瞬时奖励函数仍保持固定。在这个假设下,具有强大理论保证的众多综合和统计上有效的算法已得到发展(Jaksch等人。,2010年; Lattimore和Hutter,2012年; Dann and Brunskill,2015年; Azar等。,2017年; Jin等。,2018,2020b)。但是,即使腐败仅限于一小部分回合,这些保证也可能会完全破裂。为了模拟MDP中的对抗性损坏,已经对一个称为对抗MDP的框架进行了敏锐的研究。在对抗性MDP中,允许对手在每回合中任意选择奖励功能,同时保持过渡内核固定(Neu等人。,2010b,a; Dick等。,2014年; Rosenberg and Mansour,2019年,2021年; Jin等。,2020a; Neu和Olkhovskaya,2020年; Lee等。,2020年; Chen and Luo,2021年;他等人。,2021; Luo等。,2021)。在此框架下,可以建立强大的次线性遗憾界限,这几乎与固定的奖励案例相匹配。值得注意的是,Jin和Luo(2020); Jin等。(2021b)开发了在对抗奖励案例中实现近距离限制的算法,同时在静态案例中保留了依赖实例依赖的界限,这表明几乎可以在没有价格的情况下处理对抗奖励。
在营销,医疗保健和教育中以数据为导向的决策中,希望利用来自现有企业的大量数据来浏览高维度的高度特征空间,并解决新企业中的数据稀缺性。我们通过集中于批处理环境并通过马尔可夫决策过程(MDPS)正式定义任务差异来探索动态决策中的知识转移。我们提出了一个具有一般函数近似的传输拟合Q-材料算法的框架,从而可以使用目标和源数据直接估算最佳动作状态函数Q ∗。我们在筛分近似下建立了统计绩效与MDP任务差异之间的关系,阐明了源和目标样本大小的影响以及任务差异对知识传递效果的影响。我们表明,Q ∗函数的最终学习误差在理论上和经验上都从单个任务率方面显着提高。
神经封闭证书Alireza Nadali; Vishnu Murali; Ashutosh Trivedi; MDPS Mateo Perez中的LTL和Omega-grounder目标的Majid Zamani学习算法;法比奥·索恩齐(Fabio Somenzi); Ashutosh Trivedi朝着K-Means聚集Stanley Simoes的更公平的质心; deepak p; Muiris MacCarthaigh的稳定性分析具有神经Lyapunov功能的切换线性系统Virginie Debauche;亚历克·爱德华兹(Alec Edwards); RaphaëlJungers; Alessandro Abate Advst:重新访问单个领域概括的广托Zheng的数据增强; Mengdi Huai; Aidong Zhang Omega规范决策过程Ernst Moritz Hahn; Mateo Perez; Sven Schewe;法比奥·索恩齐(Fabio Somenzi); Ashutosh Trivedi; Dominik Wojtczak Sentinellms:私人和安全推理的语言模型的加密输入适应和微调
机器学习介绍,监督学习 - 线性回归,逻辑回归,感知。指数族,广义线性模型。(8)生成学习算法。高斯判别分析。幼稚的贝叶斯。支持向量机。偏见/方差权衡模型选择和特征选择。评估和调试学习算法,决策树,随机森林。(10)深度学习简介 - 卷积神经网络。(4)无监督的学习聚类 - k-均值,em,高斯的混合物,因子分析。降低降低 - ICA。(8)增强学习-MDP,Bellman方程,价值迭代和政策迭代,线性二次调节(LQR),Q学习。值函数近似。(12)
我们研究了无限 - 奖励马尔可夫决策过程(MDP)的无模型增强学习(RL)算法,这更适合涉及不持续操作的应用不分为情节。与情节/折扣的MDP相反,对于平均奖励设置,对无模型RL算法的理解理解相对不足。在本文中,我们考虑使用模拟器的在线设置和设置。与现有结果相比,我们开发了具有计算高效的无模型算法,以备受遗憾/样本的复杂性。在在线设置中,我们基于降低方差降低Q学习的乐观变体设计算法,UCB-AVG。我们表明UCB- AVG达到了遗憾的束缚e O(S 5 A 2 SP(H ∗)√