我们提出了一个以工业规模部署的新型播客推荐系统。该系统成功地优化了数以千万名听众数月来展开的个人聆听之旅。偏离了为短期代理指标优化机器学习算法的普遍行业实践时,该系统在A/B测试中大大提高了长期性能。本文提供了有关我们方法如何应对归因,协调和测量挑战的见解,这些挑战通常会阻碍这种长期优化。为了将这些实际见解与更广泛的学术框架相关,我们转向强化学习(RL)。使用RL的语言,我们制定了用户与建议系统的重复关系的全面模型。然后,在此模型中,我们将方法确定为对现有推荐系统组件的策略改进更新,并通过对价值功能和用户态表示的量身定制建模来增强。说明性的离线实验表明,与黑盒方法相比,这种专业建模可将数据要求减少多达120,000倍。