•信息和随机选择的成本。SIMS(2003,2010); Caplin和Dean(2013,2015); Caplin,Dean和Leahy(2021);牙本质(2020); Denti,Marinacci和Rustichini(2020); Pomatto,Strack和Tamuz(2019); H·耶伯特和伍德福德(2020a,2020b);布洛德尔和郑(2021)。SIMS(2003,2010); Caplin和Dean(2013,2015); Caplin,Dean和Leahy(2021);牙本质(2020); Denti,Marinacci和Rustichini(2020); Pomatto,Strack和Tamuz(2019); H·耶伯特和伍德福德(2020a,2020b);布洛德尔和郑(2021)。
内生增长中的多重均衡:Benhabib and Perli (1994) , Benhabib and Farmer (1994) , Boldrin and Rustichini (1994) , Howitt and McAfee (1988) , Benhabib et al. (2008)
部分监测(Rustichini,1999)是无状态顺序决策的灵活框架。部分监视模型捕获了标准的多臂和线性匪徒的设置,半信息反馈模型,动态定价和决斗匪徒的变体,仅举几例。部分监视被形式化为学习者和环境之间的基于圆形的游戏。在每回合中,学习者选择一个动作,环境提供了反馈。此外,与每个动作相关的(未知)奖励,但与强盗模型不同,不一定直接观察到奖励。相反,为学习者提供了奖励和反馈如何相关的描述。为了最大程度地提高累积奖励,学习者需要在导致信息反馈和高奖励的行动之间取得仔细的平衡,这是探索 - 开发难题的本质。更具体地,学习者需要收集数据,使其能够识别最佳动作,同时最大程度地减少相对于最佳动作(称为遗憾)的次优最佳动作的成本。