我们利用分布式强化学习解决了基于 CVaR 风险度量的风险敏感策略学习问题。具体而言,我们表明,应用分布式贝尔曼最优算子时,标准行动选择策略既不会收敛到动态马尔可夫 CVaR,也不会收敛到静态非马尔可夫 CVaR。我们建议对现有算法进行修改,包括一个新的分布式贝尔曼算子,并表明所提出的策略极大地扩展了分布式强化学习在学习和表示 CVaR 优化策略方面的效用。我们提出的方法是标准分布式强化学习算法的简单扩展,因此可以利用深度强化学习的许多最新进展。无论是在合成数据还是真实数据上,我们都通过经验表明,我们提出的算法能够学习更好的 CVaR 优化策略。