心理学家扎卡里·罗珀和他的团队与两组志愿者合作:13 至 16 岁的青少年和 20 至 35 岁的成年人。每个志愿者都必须玩一种游戏。在训练阶段,计算机会显示六个圆圈,每个圆圈颜色不同。玩家必须找到红色或绿色的圆圈。这些目标里面有一条水平线或垂直线。其余圆圈有其他角度的线。当参与者找到正确的目标时,他们必须按下键盘上的两个键之一。一个键会报告他们找到了垂直线。另一个键报告找到了一条水平线。
绕着房子走一圈,查看每一面,确保旧平面图上的所有内容都准确无误。在您拥有这所房子之前或之后,可能对其进行了许多改动,作为许可申请人,即使您没有对房子的其他部分进行任何工作,您也有责任提交准确的平面图。更新您的平面图,画出任何缺失的窗户、门、壁板、不同风格的甲板栏杆、灯等。确保按比例绘制(1/4 英寸 = 1 英尺)最后,根据当前许可申请的拟议工作更新您的平面图 - 例如,如果您要将垂直木桩改为铁丝网,则请在平面图上沿着栏杆画水平线。如果您要将壁板从 T1-11 改为水平雪松,则将所有立面上的所有垂直线涂白,并画出水平线以显示拟议的新壁板。如果您要添加窗口,请将其画在添加窗口的位置。
资料来源:Rutkowski (2018)。重新构想社会保障:需要不依赖标准就业合同的新制度。注:该图显示了 1990 年代至 2010 年代缴费养老金计划的参与率。虚线水平线表示缴费率随时间没有变化
我们感兴趣的是设计计算高效的架构来解决有限时域马尔可夫决策过程 (MDP),这是一种流行的多阶段决策问题建模框架 [1,22],具有广泛的应用,从数据和呼叫中心的调度 [12] 到间歇性可再生资源的能源管理 [13]。在 MDP 中,在每个阶段,代理都会根据系统状态做出决策,从而获得即时奖励,并相应更新状态;代理的目标是找到一个最优策略,使时间范围内的总预期奖励最大化。虽然寻找解决 MDP 的有效算法一直是一个活跃的研究领域(有关调查请参阅 [20,17]),但我们将采取不同的方法。我们不是从头开始创建新算法,而是研究如何设计架构,以创造性的方式利用现有的 MDP 算法作为“黑匣子”,以获得额外的性能提升。作为朝这个方向迈出的第一步,我们提出了时间串联启发式方法,它沿时间轴采用分而治之的方法:对于具有水平线 { 0 ,... ,T − 1 } 的 MDP,我们将原始问题实例(I 0)在水平线上划分为两个子实例:0 ,... ,T
图 4. Gegelati(我们的)和 Kelly 的代码(参考)[ 10 ] 的相对连续训练时间。在每场游戏中,TPG 训练 5 次,共 50 代。对于每对游戏和代码,垂直线从最小训练时间跨越到最大训练时间,水平线是平均训练时间。所有时间均相对于图中显示的平均参考训练时间。
图5.7在第三个前向实验实验中所有九个试验的轨道距离值的晶须图。每个晶须图代表中位数为红线作为盒子的中心,第75个百分位数为盒子的顶部,第25个百分位数作为框的底部,最大和最小的非外部值作为线的终点,以及红点作为异常。整个图表的水平线标记了总体平均距离值。。。。。。。。。。。。。。。。。。。。。。。。。72
2。运行匕首并报告您先前使用行为克隆(即ANT +另一个环境)测试的两个任务。以学习曲线的形式报告您的结果,绘制匕首迭代的数量与策略的平均收益,并显示出错误栏以显示标准偏差。在同一地块上包括专家策略的性能和行为克隆代理(如遍布图的水平线)。在标题中,说明您使用的任务以及有关网络体系结构,数据量等的任何详细信息。(如上一节所示)。