我们为生成AI的基于持续的基于时间分数的训练模型提出了一种新的增强学习(RL)公式,以生成样品,以最大程度地提高奖励函数,同时使生成的分布接近未知目标数据分布。与大多数现有研究不同,我们的公式不涉及验证模型的任何模型,用于噪声扰动数据分布的未知分数函数。我们提出了一个熵正则连续的RL问题,并表明最佳随机策略具有高斯分布,并具有已知的协方差矩阵。基于此结果,我们将高斯策略的平均值进行参数化,并开发一种参与者 - 批评类型(小)Q学习算法来解决RL问题。我们算法设计中的一个关键成分是通过比率估计器从未知分数函数中获取嘈杂的观测值。从数值上讲,我们通过将其性能与两种最先进的RL方法进行比较,从而显示了方法的效果。最后,我们讨论了我们的RL公式的扩展,并将差异模型的概率流量实现和有条件的扩散模型。
主要关键词