本文提出了一个主动信息指导的强化学习(AID-RL)框架,以寻求和估计问题。来源寻求要求搜索代理向真实来源转向,源估计要求代理维护和更新有关源属性(例如释放率和源位置)的知识。这两个目标产生了新开发的框架,即探索和剥削的双重控制。在本文中,贪婪的RL形成了一种剥削搜索策略,该策略将代理导航到源位置,而信息定向的搜索命令命令代理探索最有用的立场以减少信念不确定性。使用高实费数据集提出了广泛的结果,该数据集用于自主搜索,该数据集验证了提出的辅助-RL的有效性,并突出了主动探索在改善采样效率和搜索性能方面的重要性。2023作者。由Elsevier B.V.这是CC下的开放访问文章(http://creativecommons.org/licenses/4.0/)。
主要关键词