强化学习中的一个重要问题是设计了学会在环境中安全解决任务的代理。一个常见的解决方案是定义奖励功能的惩罚或到达不安全状态时要最小化的成本。但是,设计奖励或成本功能是非平凡的,并且可以随着问题的复杂性而增加。为了解决这个问题,我们调查了Minmax罚款的概念,这是不安全状态的最小罚款,导致安全最佳政策,无论任务奖励如何。我们通过考虑环境直径和可控性来得出该惩罚的上限和下限。此外,我们提出了一种简单的算法,以便在学习任务政策的同时估算这种罚款。我们的实验证明了这种方法在使代理能够在高维连续控制环境中学习安全策略的有效性。
图是复杂结构的典型非欧几里得数据。近年来,Riemannian图表的学习已成为欧几里得学习的令人兴奋的替代方法。,里曼尼亚方法仍处于早期阶段:无论结构复杂性如何,大多数方法都会出现单个曲率(半径),由于指数/对数映射而导致数值不稳定,并且缺乏捕获基调规律性的能力。鉴于上述问题,我们提出了主题感知的Riemannian图表的问题,寻求数值稳定的编码器,以在带有无标签的多样化曲面中限制基序的规律性。为此,我们提供了一种具有生成对比度学习(Motifrgc)的新型主题Riemannian模型,该模型以一种自我监督的方式在Riemannian歧管中进行了Minmax游戏。首先,我们提出了一种新型的Riemannian GCN(D-GCN),在该GCN(D-GCN)中,我们用di-Versifed因子构建了由产品层构建多种狂热的歧管,并用稳定的内核层代替了指数/对数映射。第二,我们引入了一种主题感知的riemannian生成对比学习,以捕获构造的歧管中的主题规律性,并在没有外部标签的情况下学习主题感知的节点表示。经验结果表明了Mofrgc的优越性。
解决基于人工智能的基本问题。 定义人工智能的概念。 将人工智能技术应用于实际问题以开发智能系统。 在实施智能系统时,从一系列技术中进行适当选择。 第一单元简介:人工智能问题概述,人工智能问题为 NP、NP 完全和 NP 难题。强与弱、整洁与邋遢、符号与亚符号、基于知识和数据驱动的人工智能。 第二单元搜索策略:问题空间(状态、目标和运算符)、通过搜索解决问题、启发式和知情搜索、极小最大搜索、Alpha-beta 剪枝。约束满足(回溯和局部搜索方法)。 第三单元知识表示和推理:命题和谓词逻辑、解析和定理证明、时间和空间推理。概率推理、贝叶斯定理。全序和偏序规划。目标堆栈规划、非线性规划、分层规划。单元 IV 学习:从示例中学习、通过建议学习、基于解释的学习、解决问题中的学习、分类、归纳学习、朴素贝叶斯分类器、决策树。自然语言处理:语言模型、n-gram、向量空间模型、词袋、文本分类。信息检索。单元 V 代理:代理的定义、代理架构(例如,反应式、分层式、认知式)、多代理系统 - 协作代理、竞争代理、群体系统和生物启发模型。智能系统:表示和使用领域知识、专家系统外壳、解释、知识获取。关键应用领域:专家系统、决策支持系统、语音和视觉、自然语言处理、信息检索、语义网。