Loading...
机构名称:
¥ 1.0

顺序决策 (SDM) 是解决顺序决策过程 (SDP) 的问题。在 SDP 中,代理必须做出一系列决策才能完成任务或实现目标。这些决策必须根据某些最优标准进行选择,通常对应于奖励最大化或成本最小化。SDP 提供了一个通用框架,已成功应用于机器人、物流、游戏和金融等不同领域。解决 SDP 的 AI 方法可分为两大类:自动规划 (AP) 和强化学习 (RL)。这两个范例主要在如何获得解决方案以及如何表示其知识方面有所不同。AP 利用规划领域中编码的有关环境动态的先验知识来寻找实现目标的计划。这些知识通常使用声明性语言以符号方式编码。标准 RL 方法无需规划即可自动从数据中学习最优策略,即从状态到动作的映射,以最大化奖励。该策略通常以亚符号方式表示为深度神经网络 (DNN)。AP 的主要优势在于其知识表示的可解释性和适合长期推理。RL 的主要优势在于它能够自动从数据中学习。由于 AP 的缺点与 RL 的优点相一致,反之亦然,因此许多方法都试图统一这两个范式,例如基于模型的 RL、关系 RL、学习 SDP 结构的方法(例如,规划域)和神经符号 AI,这是一种将深度学习 (DL) 和深度 RL 的 DNN 与 AP 的符号表示相结合的新方法。

神经符号人工智能在顺序决策中的应用

神经符号人工智能在顺序决策中的应用PDF文件第1页

神经符号人工智能在顺序决策中的应用PDF文件第2页

相关文件推荐

2010 年
¥1.0