贫困准则未针对波多黎各或其他外部管辖区定义。在使用贫困准则的联邦计划为任何这些司法管辖区提供服务的情况下,管理该计划的联邦办公室通常负责决定是使用这些司法管辖区的连续状态和DC指南还是遵循其他程序。由于可以追溯到1972年的立法语言,贫困指南有时被错误地称为“管理和预算办公室)(管理和预算办公室)贫困指南或贫困线。实际上,OMB从未发布过这些准则;该准则每年由卫生和公共服务部发布。贫困准则可以正式称为“‘‘美国卫生与公共服务部在联邦登记册中定期更新的贫困准则,该指南在42 U.S.C.9902(2)。''一些联邦计划使用该准则的百分比(例如,指南的125%或185%),如相关授权立法或计划法规所述。非联邦组织在非养育活动中使用自己权威的贫困准则,也可以选择使用该准则的百分比。贫困指南不会区分农场和非农民家庭,或者在老年和非年龄单位之间。(只有人口普查局贫困阈值具有针对老年人和非年龄的一人组和两个人单位的单独数字。)本通知没有提供诸如“收入”或“家庭”之类的术语的定义,因为在使用贫困准则的程序中,这些术语有很大的变化。管理每个计划的立法或法规定义了这些条款,并确定该计划如何应用贫困准则。在立法或法规未建立这些定义的情况下,管理或资金的实体该计划负责定义诸如“收入”和“家庭”之类的术语。''因此,应将净收入或总收入,被计数或排除收入或家庭规模的问题直接针对管理或资助该计划的实体。
强化学习(RL)是机器学习中的一个活跃子区域,已成功应用于解决复杂的决策问题,例如玩棋盘游戏[31,32]和视频游戏[22] [22],自主驾驶[18,21],以及最近,将大型语言模型和文本生成模型与人类的preference preferfection and-to anclight [18,21]。RL研究主要集中在离散时间和空间中的马尔可夫决策过程(MDP)上。有关MDP的理论和应用的详细说明,请参见[34]。Wang,Zariphopoulou和Zhou [40]是第一个使用受控扩散过程的RL制定和开发RL的熵调查的,探索性控制框架的人,该过程固有地与连续状态空间和可能的连续作用(可能连续的动作(控制)空间)。在此框架中,随机放松控制被用来表示探索,从而捕获了RL核心的“反复试验”概念。随后的工作旨在通过Martingale方法[14、15、16]和政策优化在连续时间内为无模型RL奠定理论基础[44]。在这里,“无模型”是指潜在的动力学是扩散过程,但是它们的系数以及奖励函数是未知的。[14,15,16]的关键见解是,可以从基于连续时间RL的Martingale结构中得出学习目标。这些论文中的理论结果自然会导致一般RL任务的各种“无模型”算法,因为它们直接直接学习最佳策略而无需尝试学习/估计模型参数。这些算法中的许多算法恢复了通常以启发式方式提出的MDP的现有RL算法。然而,对MDP的RL研究占据了中心阶段的算法的融合和遗憾分析仍然缺乏扩散率。To our best knowledge, the only works that carry out a model-free convergence analysis and derive sublinear regrets are [12] for a class of stochastic linear–quadratic (LQ) control problems and [11] for continuous-time mean–variance portfolio selection, both of which apply/apapt the policy gradient algorithms developed in [15] and exploit heavily the special structures of the problems.本文的目的是通过对[16]中引入的(小)Q学习的定量分析以及通常非线性RL问题的相关算法来填补这一空白。(big)Q-学习是离散时间MDP RL的关键方法,但Q功能在连续的时间内崩溃,因为它不再依赖于时间步长无限时间小时的操作。[16]提出了Q功能的概念,Q功能是Q功能在时间离散化方面的第一阶导数。