Loading...
机构名称:
¥ 1.0

以前的互动加强学习中的工作在代理政策学习中认为人类行为是直接的,但这需要估计在许多样本上估算Human行为的分布,以防止偏见。我们的工作表明,基于模型的系统可以使用少量的人类数据来指导世界模型学习而不是代理 - 政策学习来避免此问题。我们表明,这种方法比以前的状态更可靠地学习并产生有用的政策。我们通过在两个环境中的专家人类演示来评估我们的方法:PINPAD5,这是一个完全可观察到的环境,优先考虑任务comscom和MemoryMaze,这是一种优先级的可观察到的环境,将其优先列出了外观和记忆。我们只使用9分钟的人类演示数据显示了学习和可靠性的速度速度。

以代理人为中心的人类示威训练世界模型

以代理人为中心的人类示威训练世界模型PDF文件第1页

以代理人为中心的人类示威训练世界模型PDF文件第2页

以代理人为中心的人类示威训练世界模型PDF文件第3页

以代理人为中心的人类示威训练世界模型PDF文件第4页

以代理人为中心的人类示威训练世界模型PDF文件第5页

相关文件推荐

2023 年
¥1.0