预测具有多个人类交互的网络物理系统的结果是一个具有挑战性的问题。本文回顾了一种解决此问题的博弈论方法,其中采用强化学习来预测时间延长的交互动态。我们解释说,该方法最吸引人的特点是提出一种计算上可行的方法来同时将多个人建模为决策者,而不是确定感兴趣的智能代理的决策动态并强迫其他人遵守环境施加的某些运动学和动态约束。我们介绍了该方法的两种最新应用,用于建模 (1) 无人机融入国家空域系统和 (2) 公路交通。我们在文章的最后提供了有关使用、改进和验证该方法的正在进行和未来的工作。我们还提供了相关的未解决的问题和研究机会。
2.1 简介. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....................................................................................................................................................................................................................................................................................... 6 欺骗模型....................................................................................................................................................................................................................................................................................................................................................................... 10 2.3 欺骗的实用性....................................................................................................................................................................................................................................................................... 10 2.3 欺骗的实用性....................................................................................................................................................................................................................................................................................... . . 17 需要使用欺骗手段的情况. . . . . . . . . 18 欺骗的必要条件. . . . . . . . . . . . . . 21 所需属性. . . . . . . . . . . . . . . . . 22 欺骗机制. . . ................. ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... ....... ....... ....... ....... .......
作者:H Tavafoghi · 被引用 6 次 — Teneketzis。一种用于大规模网络动态防御的 pomdp 方法。IEEE 信息取证与安全交易,13(10):...
1 美国宾夕法尼亚州立大学生物系,宾夕法尼亚州立大学,宾夕法尼亚州立大学,宾夕法尼亚州立大学,宾夕法尼亚州立大学,哈克生命科学研究所。3 英国诺里奇东英吉利亚大学生物科学学院。4 美国马里兰州巴尔的摩约翰霍普金斯医学院布雷迪泌尿科研究所。癌细胞通过分泌扩散因子,在肿瘤内以及与微环境中的基质细胞合作,表现出癌症的许多特征。这种合作不能简单地解释为细胞为了肿瘤的利益而采取的集体行动,因为不合作的克隆可以不断入侵并搭便车,利用合作细胞产生的生长因子。要全面了解癌细胞之间的合作,需要使用进化博弈论的方法和概念,该理论已成功用于生物学的其他领域以了解类似的问题,但在癌症研究中尚未得到充分利用。博弈论可以通过破坏这种合作,深入了解癌细胞之间合作的稳定性以及进化防线疗法的设计。癌细胞内的合作 肿瘤内的细胞不仅竞争空间和资源,而且也通过分泌促进肿瘤生长和侵袭的可扩散因子相互合作 1-5 。癌细胞之间及其微环境的协同作用对于癌症进展至关重要,并且是驱动对疗法的耐药性的关键 6-8 。负责这些相互作用的许多分子、它们的基因和它们激活的信号通路已被人们所知,但肿瘤内细胞为何合作仍未得到解释。这里的“为什么”与合作的适应性优势 9-11 有关:细胞通过合作(产生生长因子)获得了什么选择优势?
摘要 — 预测将无人机系统 (UAS) 集成到国家空域系统 (NAS) 的结果是一个复杂的问题,在允许 UAS 常规访问 NAS 之前,需要通过模拟研究来解决。本文重点介绍使用博弈论方法提供一个三维 (3D) 模拟框架,以使用有人驾驶和无人驾驶飞行器共存的场景来评估集成概念。在所提出的方法中,人类飞行员交互式决策过程被纳入空域模型,这可以填补文献中的空白,其中飞行员行为通常被认为是先验已知的。所提出的人类飞行员行为是使用动态 k 级推理概念和近似强化学习建模的。k 级推理概念是博弈论中的一个概念,基于人类具有不同决策水平的假设。在传统的“静态”方法中,每个代理都会对其对手做出假设,并据此选择其行动。另一方面,在动态 k 级推理中,代理可以更新其对对手的信念并修改其 k 级规则。在本研究中,神经拟合 Q 迭代(一种近似强化学习方法)用于对具有 3D 机动的飞行员的时间延长决策进行建模。在有人驾驶飞机和配备感知和避免算法的全自动 UAS 的情况下,使用示例 3D 场景对 UAS 集成进行分析。
责任限制/免责声明 MATLAB ® 是 The MathWorks, Inc. 的商标,经许可使用。MathWorks 不保证本书中文本或练习的准确性。本书对 MATLAB ® 软件或相关产品的使用或讨论并不构成 The MathWorks 对某种特定教学方法或 MATLAB ® 软件特定用途的认可或赞助。尽管出版商和作者已尽最大努力编写本书,但他们对本书内容的准确性或完整性不作任何陈述或保证,并特别声明放弃所有担保,包括但不限于对适销性或针对特定用途的适用性的任何默示担保。销售代表、书面销售材料或促销声明均不为本书提供或延长任何担保。本作品中提及某个组织、网站或产品作为引文和/或进一步信息的潜在来源并不意味着出版商和作者认可该组织、网站或产品可能提供的信息或服务或可能提出的建议。出售本作品时,出版商不提供专业服务。本文包含的建议和策略可能不适合您的情况。您应该在适当的情况下咨询专家。此外,读者应注意网站列表
报告文档页面表格批准OMB 编号 0704-0188 估计此信息收集的公共报告负担每份回应平均需要 1 小时,其中包括审查说明、搜索现有数据源、收集和维护所需数据以及完成和审查信息收集的时间。请将关于此负担估算或此信息收集的任何其他方面的评论(包括减轻此负担的建议)发送至华盛顿总部服务处、信息运营和报告理事会,1215 Jefferson Davis Highway, Suite 1204, Arlington, VA 22202-4302,以及管理和预算办公室、文书工作减少项目(0704-0188)华盛顿特区 20503。1. 仅供机构使用(留空)2. 报告日期 2009 年 9 月3. 报告类型和涵盖日期硕士论文4. 标题和副标题博弈论反潜战任务规划器(基于启发式,完全支持 Excel)6. 作者 Scott D. Scherer
)。 , ( max ) , ( ) ( ) , ( ) ( ) , ( ) ( Supp ) ( Supp paupauapauaapuaa A a σ σ σ σ σ ∈ ∈ ≤ = = ∑ ∑ QED
– 不同的偏好(效用函数) – 不同的偏好(效用函数), – 他们可以采取不同的行动 • 每个代理的效用(潜在地)取决于所有代理的效用
博弈论影响了许多领域,从经济学(历史上博弈论最初的研究重点)到政治学、生物学,等等。近年来,博弈论在计算机科学领域的存在已变得无法忽视。它经常出现在人工智能、理论、电子商务以及网络和计算机科学其他领域的顶级会议和期刊上。这有几个原因。一是应用拉动;互联网要求分析和设计跨越多个实体、信息和兴趣各异的系统。博弈论尽管有种种局限性,但它是迄今为止此类互动最发达的理论。另一个是技术推动;博弈论的数学和科学思维方式与许多计算机科学家的相似。事实上,值得注意的是,现代计算机科学和现代博弈论在很大程度上起源于同一时间和地点,即约翰·冯·诺依曼领导下的普林斯顿大学。2