在营销,医疗保健和教育中以数据为导向的决策中,希望利用来自现有企业的大量数据来浏览高维度的高度特征空间,并解决新企业中的数据稀缺性。我们通过集中于批处理环境并通过马尔可夫决策过程(MDPS)正式定义任务差异来探索动态决策中的知识转移。我们提出了一个具有一般函数近似的传输拟合Q-材料算法的框架,从而可以使用目标和源数据直接估算最佳动作状态函数Q ∗。我们在筛分近似下建立了统计绩效与MDP任务差异之间的关系,阐明了源和目标样本大小的影响以及任务差异对知识传递效果的影响。我们表明,Q ∗函数的最终学习误差在理论上和经验上都从单个任务率方面显着提高。