强化学习是机器学习的第三主要类别,以及受监督和无监督的学习。此技术用于顺序决策问题,在这种决策问题中,代理采取了最大化其预期累积奖励的动作。与深度神经网络(称为深度增强学习)结合使用,该技术用于许多领域的控制问题。本课程单元的目的是将基本原则和现代范式应用于强化学习,以便学生可以独立地独立理解和构建该领域的新学术文献。讨论了单一代理和多代理情况。在许多作业中,学生获得动手经验
问题导致引入几种类型的语义。不同的语义反映了关于接受或否定论证的不同观点。AF/ADF 的大多数语义都基于可采纳性概念,[8] 表明可采纳性相对于合理性假设起着重要作用。[7] 表明,每个 AF 都可以表示为一个 ADF,此外,还表明为 ADF 定义的语义是 AF 语义的适当概括。然而,AF 的某些语义尚未引入 ADF,即强采纳语义。在当前工作中,我们引入了 ADF 的强采纳语义。在 ADF 中,如果一种解释不包含任何不合理的信息,则称其为可采纳的。如果一种解释是最大可采纳的,则称其为首选的。因此,每个可采纳解释都包含在一个优先解释中。也就是说,为了回答优先语义下的轻信决策问题,只需在可采纳语义下回答该问题即可。此外,如果一种解释收集了所有毫无疑问的信息,则该解释是有根据的。在 AF 中,强可采纳语义的概念首次在 Baroni 和 Giacomin [9] 的著作中定义,其基于强防御的概念。后来在 [10] 中引入了这一概念,但并未提及强防御。此外,在 [11] 中,Caminada 和 Dunne 提出了强可采纳性的标签说明,以回答有根据语义下的 AF 的轻信决策问题。在 [10–12] 中,结果表明,对于有根据语义下的 AF,强可采纳性在讨论博弈中起着至关重要的作用。也就是说,已经证明强可接受扩展/标记与给定 AF 的扎根扩展的最大元素组成一个格。因此,AF 的强可接受语义概念与 AF 的扎根语义的关系类似于 AF 的可接受语义与 AF 的首选语义之间的关系。也就是说,要回答扎根语义下 AF 的轻信决策问题,只需解决强可接受语义下 AF 的决策问题即可。在 [13] 中,引入了一个讨论游戏来回答扎根语义下 ADF 的轻信决策问题,而无需构建给定 ADF 的完整扎根解释。然而,ADF 的强可接受语义的概念尚未引入。这是我们在本文中提出 ADF 强可接受语义概念的动机。然而,研究[13]中提出的游戏是否等同于构建一个满足断言的强可接受的解释,
根据决策的特征,可以将其分为结构化,半结构或非结构化。半结构化的决策问题可以接受决策支持,需要与用户和分析方法相互作用,以根据标准和最佳解决方案开发替代方案。
AE 6513. 自主规划和决策的数学原理。3 个学分。本课程将向学生介绍数学工具和理论,用于制定和解决涉及自主系统控制和规划的高级决策问题,重点是航空航天应用。
数字线程是一种数据驱动的架构,它将产品生命周期各个阶段的信息链接在一起。尽管它在制造、维护/运营和设计相关任务中的应用越来越广泛,但仍然缺乏一种分析数字线程在不确定情况下的决策问题的原则性公式。本文的贡献是提出一种使用贝叶斯统计和决策理论的公式。首先,我们讨论不确定性如何在产品生命周期中传播,以及数字线程如何根据我们做出的决策和收集的数据发展。使用这些机制,我们探索了多代产品或迭代的设计,并提供了一种解决底层多阶段决策问题的算法。我们在一个示例结构设计问题上说明了我们的方法,其中我们的方法可以量化和优化不同类型和顺序的决策,包括实验、制造和传感器放置/选择,以最大限度地降低总累计成本。
摘要:有效的,可扩展的和成本效益的资源管理是一个多方面的在线决策问题,在网络和云计算方面越来越面临。更具体地,任务安排是一个复杂的挑战,解决了当今系统的最佳功能至关重要。调度的传统启发式方法在设计上很费力,尤其是很难调节,因此已经提出了各种基于机器的方法。强化学习(RL)在类似的决策问题中显示出很大的结果,许多现有方法采用RL来解决任务调度问题。这些作品中的大多数都考虑了单一代理的方案(因此遭受可伸缩性问题),或者现有的多代理应用程序非常专业。我们提出了一个通用多代理RL框架,该框架可以成功地学习协作最佳的调度策略,从而向既可以扩展又自主的云和网络迈出一步。我们的实验表明,这些代理可以协作学习动态工作负载的最佳调度策略。
▶多项式拥堵游戏:成本是D度的多项式。▶低α的精确或α平衡不存在。[FKS05,HKS14,CGG + 23]▶低α的确切或α-抗性决策问题的NP-固定度。[CGG + 23]▶大型α的存在α-平衡。[CF19]▶为更大α的α平衡的有效计算。[CFGS11]
这是量子复杂性理论中的一个长期开放问题,即复杂性NP类的两个可能的量子类似物是否等效。QMA被定义为可以通过多项式量量子量子证人访问的多项式时间量子算法可以解决的决策问题,而QCMA是可通过多项式量子算法可解决的一类决策问题,仅通过多项式量子算法可以访问多项式规定的经典证人。换句话说,问题要问:量子证明是否比经典证据更强大?虽然包含QCMA QMA很容易看出,但这两个类别是否相等的问题(首先由Aharonov和Naveh [3]提出)仍然没有解决。的确,这些类别之间的无条件分离超出了当前已知的技术。一个更容易但仍未解决的问题是显示QMA和QCMA之间的甲骨文分离。这是因为Turing Machine模型中的Oracle分离可以通过在更简单的查询复杂性模型中的分离来显示,其中相似的