我们将 Covid-19 疫苗接种建模为两个群体之间的强化学习动态:疫苗采用者和疫苗犹豫者。使用疾病控制中心 (CDC) 提供的数据,我们计算出一个控制这两个群体之间动态互动的收益矩阵,并表明他们正在进行一场鹰派-鸽派进化博弈,其内部存在进化稳定的纳什均衡(人群中接种疫苗的渐近百分比)。然后,我们问是否可以通过实施奖励/惩罚疫苗犹豫者的动态激励计划来提高疫苗接种率,如果可以,哪些计划是最佳的,它们的效果如何?什么时候是启动激励计划的最佳时间,激励措施应该有多大?通过使用量身定制的复制器动态强化学习模型和最优控制理论,我们表明精心设计和时间安排的激励计划可以通过在大量人群中向上移动纳什均衡来提高疫苗接种率,但只能达到一定程度,超过一定阈值的激励规模会显示收益递减。