所选的研究主题单位级别(MQF):7个学分:6单元描述本单元将使候选核心研究技能和对一般研究设计的洞察力,正确的数据查询方法,例如调查方法或深入访谈以及数据分析的方法,例如多变量分析或扎根理论方法。本单元为学生提供了了解和掌握应用研究方法中主要基本概念的机会。特别是,学生必须深入读取三个方法域中的至少两个:一般研究方法;查询方法;定量或定性研究方法。对于该模块,还将要求通过审查同伴学术期刊的反应对其选定的研究主题进行批判性文献审查。应预期学生能够自信地解释在受众面前所选研究方法的理由和适用性。学习成果在完成本单元后的学习成果将能够
摘要 - 基于偏好的奖励学习是一种教授机器人和自主系统的流行技术,人类用户如何希望他们执行任务。以前的作品表明,积极合成偏好查询以最大程度地提高有关奖励函数参数的信息增益可提高数据效率。信息增益标准着重于确定奖励函数的所有参数。这可能会浪费,因为许多参数可能会带来相同的奖励,并且许多奖励可能会导致下游任务中相同的行为。取而代之的是,我们表明可以优化学习奖励功能到行为等价类,例如在行为上诱导相同的排名,对选择的分布或其他相关奖励相似的相关定义。我们引入了一个可捕获的框架,该框架可以捕获相似性的这种定义。我们在合成环境中进行的实验,具有域转移的辅助机器人环境以及使用真实数据集的自然语言处理问题,证明了我们的查询方法的出色性能,而不是最先进的信息增益方法。
态势感知 (SA) 是与正在执行的任务相关的知识。例如,飞行员必须了解飞机的状态、飞行环境以及它们之间的关系,例如雷暴与湍流有关。它是决策的重要组成部分,已被纳入多种决策模型中(例如,Dorfel 和 Distelmaier 模型,1997 年;见图 3.1)。态势感知有三个层次(Endsley,1991 年):第 1 级,对环境中元素的感知;第 2 级,对当前情况的理解;第 3 级,对未来状态的预测。态势感知测量有四种类型:性能(也称为查询方法,Durso 和 Gronlund,1999 年)、主观评级、模拟(也称为建模,Golightly,2015 年)和生理测量。以下各节分别描述了前三种类型的态势感知测量。 French 等人 (2003) 和 Vidulich 等人 (1994) 撰写了描述 SA 生理测量的文章。图 3.2 给出了帮助选择最合适测量的流程图。请注意,Stanton 等人 (2005) 提出了另一种 SA 测量分类。它们的类别是:SA 需求分析、冻结探测、实时探测、自我评级探测、观察者评级和分布式 SA。该团队还评估了 17 种 SA 测量在指挥、控制、通信、计算机和情报 (C4i) 应用中的应用