点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
2。运行匕首并报告您先前使用行为克隆(即ANT +另一个环境)测试的两个任务。以学习曲线的形式报告您的结果,绘制匕首迭代的数量与策略的平均收益,并显示出错误栏以显示标准偏差。在同一地块上包括专家策略的性能和行为克隆代理(如遍布图的水平线)。在标题中,说明您使用的任务以及有关网络体系结构,数据量等的任何详细信息。(如上一节所示)。
主要关键词