责任限制/免责声明 MATLAB ® 是 The MathWorks, Inc. 的商标,经许可使用。MathWorks 不保证本书中文本或练习的准确性。本书对 MATLAB ® 软件或相关产品的使用或讨论并不构成 The MathWorks 对某种特定教学方法或 MATLAB ® 软件特定用途的认可或赞助。尽管出版商和作者已尽最大努力编写本书,但他们对本书内容的准确性或完整性不作任何陈述或保证,并特别声明放弃所有担保,包括但不限于对适销性或针对特定用途的适用性的任何默示担保。销售代表、书面销售材料或促销声明均不为本书提供或延长任何担保。本作品中提及某个组织、网站或产品作为引文和/或进一步信息的潜在来源并不意味着出版商和作者认可该组织、网站或产品可能提供的信息或服务或可能提出的建议。出售本作品时,出版商不提供专业服务。本文包含的建议和策略可能不适合您的情况。您应该在适当的情况下咨询专家。此外,读者应注意网站列表
报告文档页面表格批准OMB 编号 0704-0188 估计此信息收集的公共报告负担每份回应平均需要 1 小时,其中包括审查说明、搜索现有数据源、收集和维护所需数据以及完成和审查信息收集的时间。请将关于此负担估算或此信息收集的任何其他方面的评论(包括减轻此负担的建议)发送至华盛顿总部服务处、信息运营和报告理事会,1215 Jefferson Davis Highway, Suite 1204, Arlington, VA 22202-4302,以及管理和预算办公室、文书工作减少项目(0704-0188)华盛顿特区 20503。1. 仅供机构使用(留空)2. 报告日期 2009 年 9 月3. 报告类型和涵盖日期硕士论文4. 标题和副标题博弈论反潜战任务规划器(基于启发式,完全支持 Excel)6. 作者 Scott D. Scherer
)。 , ( max ) , ( ) ( ) , ( ) ( ) , ( ) ( Supp ) ( Supp paupauapauaapuaa A a σ σ σ σ σ ∈ ∈ ≤ = = ∑ ∑ QED
– 不同的偏好(效用函数) – 不同的偏好(效用函数), – 他们可以采取不同的行动 • 每个代理的效用(潜在地)取决于所有代理的效用
博弈论研究独立实体之间的竞争与合作。一种非常简单的博弈类型是标准形式博弈,其中两个玩家 P 0 , P 1 分别从一组离散策略(通常是有限策略)中选择一个策略 s 0 , s 1 ,并分别获得奖励 v 0 ( s 0 , s 1 ) ,v 1 ( s 0 , s 1 )。这种博弈可以用两个矩阵 V 0 , V 1 来表示,矩阵的行和列由玩家所有可能的策略 s 0 , s 1 索引,矩阵的条目是与这些策略相关的奖励。
b'假设 S i 是标准形式博弈 G 中局内人 i D 1; : : : ; n 的有限纯策略集,因此 SDS 1 : : : S n 是 G 的纯策略方案集,i .s/ 是局内人选择策略方案 s 2 S 时局内人 i 的收益。我们将在 S 中有支持的混合策略集表示为 SDS 1 : : : S n ,其中 S i 是在 S i 中有支持的局内人 i 的混合策略集,或者等价地,S i 成员的凸组合集。我们用 S i 表示除 i 之外所有局内人的混合策略向量集。如果对于每个 i 2 S i , i .si ; i / > i .s 0 i ; i / ,则我们说 s 0 i 2 S i 被 si 2 S i 强支配。如果对于每个 i 2 S i , i .si ; i / i .s 0 i ; i / ,且对于至少一个 i 的选择,不等式是严格的,则我们说 s 0 i 被 si 弱支配。请注意,一种策略可能不会被任何纯策略强支配,但可能被混合策略强支配。假设 si 对于玩家 i 是一种纯策略,使得玩家 i 的每个 0 i \xc2\xa4 si 都被 si 弱(分别强)支配。我们称 sia 为 i 的弱(分别强)支配策略。如果存在一个所有玩家都使用支配策略的纳什均衡,我们称其为支配策略均衡。一旦我们消除了每个玩家的劣势策略,结果往往是一开始不占优势的纯策略现在占优势了。因此,我们可以进行第二轮消除劣势策略。事实上,这可以重复进行,直到纯策略不再以这种方式被消除。在 \xef\xac\x81nite 游戏中,这将在 \xef\xac\x81nite 轮次之后发生,并且每个玩家总是会剩下至少一个纯策略。如果强(或弱)劣势策略被消除,我们称之为强(或弱)劣势策略的迭代消除。
博弈论影响了许多领域,从经济学(历史上博弈论最初的研究重点)到政治学、生物学,等等。近年来,博弈论在计算机科学领域的存在已变得无法忽视。它经常出现在人工智能、理论、电子商务以及网络和计算机科学其他领域的顶级会议和期刊上。这有几个原因。一是应用拉动;互联网要求分析和设计跨越多个实体、信息和兴趣各异的系统。博弈论尽管有种种局限性,但它是迄今为止此类互动最发达的理论。另一个是技术推动;博弈论的数学和科学思维方式与许多计算机科学家的相似。事实上,值得注意的是,现代计算机科学和现代博弈论在很大程度上起源于同一时间和地点,即约翰·冯·诺依曼领导下的普林斯顿大学。2
当只需做出一个决策时,行动集和纯策略集是相同的。假设行动(或纯策略)集为 { a 1 , a 2 } 。指定随机化行为的唯一方法是使用概率为 p 的 a 1 和概率为 1 − p 的 a 2 。我们表示 β = ( p , 1 − p )。
我们看到,由于 s 1 优于 s 2 ,所以玩家 1 的安全水平策略是纯策略 (1,0)(即,玩家 1 使用策略 s 1 的概率为 1)。玩家 2 的安全水平策略是纯策略 (0,1)。但是,策略对 ( s 1 , t 2 ) 并不均衡。如果玩家 2 注意到 s 1 优于 s 2 ,他或她会得出结论,玩家 1 会选择 s 1 。因此,通过使用纯策略 (1,0),玩家 2 将最大化自己的收益。我们看到,通过使用这种策略,玩家 1 保持了自己的安全水平,而玩家 2 获得的单位比自己的安全水平多 19 个。这似乎是没有沟通或合作的博弈的合理解决方案(请注意,如果允许沟通,玩家 1 可能会诉诸威胁以试图获得更好的收益)。
许多决策都是在竞争环境中做出的,其结果不仅取决于决策本身,还取决于决策者和竞争者之间的互动。如今,“博弈”一词不仅包括这种令人愉悦的活动,还包括更为严肃的战争与和平竞争环境。博弈论经典著作首次发表于二战期间并非偶然。许多竞争环境对于目前的发展状态的理论来说仍然过于复杂。人们已经使用了其他方法,其中战争游戏是长期存在的例子,而商业游戏起源较晚。计算机的出现使得越来越大规模的运营能够以极大的真实性来表示。博弈论得到了极大的真实性。博弈论与博弈技术一起发展,对相关概念的了解,尤其是机会作用的重要性,有助于澄清许多决策过程中的问题。