大部分关于学习人工智能代理符号模型的研究都集中在具有固定模型的代理上。这种假设在代理能力可能由于学习、适应或其他部署后修改而发生变化的环境中不成立。在这种环境下对代理进行有效评估对于了解人工智能系统的真正能力和确保其安全使用至关重要。在这项工作中,我们提出了一种新颖的方法来差异化评估已经偏离其先前已知模型的黑盒人工智能代理。作为起点,我们考虑完全可观察和确定性的设置。我们利用对漂移代理当前行为的稀疏观察和对其初始模型的了解来生成主动查询策略,该策略有选择地查询代理并计算其功能的更新模型。实证评估表明,我们的方法比从头开始重新学习代理模型要有效得多。我们还表明,使用我们的方法进行差异评估的成本与代理功能的漂移量成正比。
主要关键词