备注:检测到低度抄袭 --------------------------------------------------------------------------------------------------
第 1 章给出了一些战略博弈和战略思维的简单例子。在本章中,我们将开始对这一主题进行更系统和更分析性的研究。我们选择了一些关键的概念类别或维度,每个类别或维度都有战略互动类型的二分法。例如,其中一个维度涉及玩家行动的时间安排,两种纯粹类型是玩家严格轮流行动(连续行动)和同时行动(同时行动)的游戏。我们考虑在这种二分法中思考每种纯粹类型时出现的一些问题,以及在类似的二分法中出现的其他问题,例如游戏是只玩一次还是重复玩,以及玩家对彼此了解多少。在第 3-7 章中,我们将更详细地研究这些类别或维度中的每一个;在第 8-17 章中,我们将展示如何在多种情况下使用这种分析。当然,大多数实际应用都不是纯粹的类型,而是混合类型。此外,在每种应用中,两个或多个类别都具有一定的相关性。因此,必须以适当的方式结合从纯类型研究中获得的经验教训。我们将通过使用我们的应用上下文来展示如何做到这一点。在本章中,我们将陈述一些用于分析的基本概念和术语(例如策略、收益和均衡),并简要描述解决方法。我们还简要讨论了博弈论的用途,并概述了本书其余部分的结构。
博弈论研究独立实体之间的竞争与合作。一种非常简单的博弈类型是标准形式博弈,其中两个玩家 P 0 , P 1 分别从一组离散策略(通常是有限策略)中选择一个策略 s 0 , s 1 ,并分别获得奖励 v 0 ( s 0 , s 1 ) ,v 1 ( s 0 , s 1 )。这种博弈可以用两个矩阵 V 0 , V 1 来表示,矩阵的行和列由玩家所有可能的策略 s 0 , s 1 索引,矩阵的条目是与这些策略相关的奖励。
我们考虑深度强化学习 (DRL) 领域的以下核心问题:如何使用隐式人类反馈来加速和优化 DRL 算法的训练?最先进的方法依赖于任何明确提供的人为反馈,需要人类的主动参与(例如,专家标记、演示等)。在这项工作中,我们研究了一种替代范式,其中非专家人类正在默默观察(和评估)与环境交互的代理。通过将电极放在人的头皮上并监测所谓的事件相关电位,人类对代理行为的内在反应被感知为隐式反馈。然后使用隐式反馈来增强代理在 RL 任务中的学习。我们开发了一个系统来获取并准确解码隐式人类反馈,特别是 Atari 类型环境中的状态-动作对的错误相关事件电位 (ErrP)。作为一项基线贡献,我们证明了使用脑电图 (EEG) 帽捕获人类观察者观察代理学习玩几种不同 Atari 游戏的错误潜力的可行性,然后适当地解码信号并将其用作 DRL 算法的辅助奖励函数,旨在加速其对游戏的学习。在此基础上,我们在工作中做出了以下新颖的贡献:(i)我们认为 ErrP 的定义可以在不同的环境中推广;具体来说,我们表明观察者的 ErrP 可以针对特定游戏进行学习,并且该定义可以按原样用于另一个游戏,而无需重新学习错误潜力。(ii)为了提高 ErrP 数据效率,我们提出了一个新的学习框架,将 DRL 的最新进展结合到基于 ErrP 的反馈系统中,允许人类仅在 RL 代理训练开始之前提供隐式反馈。 (iii)最后,我们将基于隐式人类反馈(通过 ErrP)的 RL 扩展到相当复杂的环境(游戏),并通过合成和真实用户实验证明了我们的方法的重要性。
文章信息摘要目的:分析2016年奥运会对巴西经济的影响,考虑三个不同的方面:经济,社会和体育运动以识别当前的差距/福利。理论框架:在里约热内卢举办的活动有一个独特的机会来研究全球大型体育赛事对发展中国家的影响(Rocha,2017; Cabral,2016;Agênciaibge,2023年)。但是,仍然有很多事情需要调查和理解奥运会造成的巴西人日常生活的真正影响。设计/方法论/方法:该研究使用了巴西统计研究所,该研究所在奥运会时揭示了数据,目前要了解2016年至2023年这一时期内发生的趋势。此外,还使用了另一种工具,一份调查表,该问卷允许从2016年在社会,经济和体育水平上收集有关奥运会对里约热内卢市对里约热内卢市产生影响的非常具体的要素。的发现:他们使通过投资,基础设施的发展,就业创造和促进旅游业来感知经济中的积极冲动。,可以注意到的是,主要结果表明,从长远来看,国际预测和积极的影响,尽管许多方面值得国家的关注来改善人们和里约热内卢的质量和生活条件,而里约热内卢则在广泛的意义上。自奥运会发生以来,缺乏环境控制一直是一个亮点。研究,实践和社会影响:我们建议使用其他研究工具,作为样本,没有对本研究提供任何回应,因此与巴西人与本研究中当前获得的研究相比,这可能是未来的贡献。独创性/价值:结果表明废弃的体育设施的数量很高(对它们进行了描述)。最后,政府或其他负责实体在为游戏的设施,设备和其他遗产提供改进以及允许向公众访问的设施,设备和其他遗产方面没有兴趣的前景。doi:https://doi.org/10.26668/businessreview/2023.v8i11.3886
虽然在各种棋盘游戏中,alphazero风格的增强学习(RL)算法出色,但在本文中,我们表明它们在玩家共享作品的公正游戏中面临挑战。我们提出了一个游戏的具体例子 - 即儿童游戏的NIM游戏以及其他公正的游戏,这些游戏似乎是Alphazero风格和类似的自我播放增强学习算法的绊脚石。我们的工作建立在数据分布对神经网络学习奇偶校验功能的能力上的复杂性所带来的挑战,这对嘈杂的标签问题加剧了。我们的发现与最近的研究一致,表明α风格的算法容易受到广泛的攻击和对抗性扰动的影响,这表明学习在所有法律国家中掌握游戏掌握游戏的困难。我们表明,NIM可以在小型董事会上学习,但是当板尺寸增加时,Alphazero-Style算法的学习进度会大大减慢。在直觉上,可以通过以下事实来解释,例如NIM和党派游戏等公正游戏之间的差异,如果董事会在公正游戏中涵盖了董事会的一小部分,通常不可能预测该位置是否会赢得还是丢失,因为通常在部分空白的位置和正确评估的部分之间存在零相关性。这种情况与党派游戏形成了鲜明的对比,其中部分空白的董事会位置通常提供有关完全未透明的位置的价值的丰富或至少非trife信息。
摘要。我们探索了Castellan,Clairambault和Winskel的薄薄游戏之间的联系,以及由Laird,Manzonetto,McCusker和Pagani研究的线性逻辑的加权关系模型。更确切地说,我们表明,从前者到后者有一个解释的“崩溃”函数。在对象上,函子为每个游戏定义了一组可能的执行状态。定义对形态的作用更加微妙,这是本文的主要贡献。鉴于策略和执行状态,我们的函子需要在战略中计算该状态的证人。薄薄的并发游戏中的策略明确地描述了非线性行为,因此总的来说,每个证人都存在于许多对称副本中。挑战是定义证人的正确概念,在与加权关系模型匹配的同时考虑了这个无穷大。了解证人的构成方式特别微妙,需要深入研究证人及其对称性的组合。以其基本形式,该函子连接了薄的并发游戏和由n∪{ +∞}加权的关系模型。我们还将考虑一个广义设置,其中两个模型都由任意连续半段的元素加权;这涵盖了概率案件。目击者现在还从半段中带有一个价值,而我们的解释崩溃函数则扩展到此设置。
无签名策略(即q ns)duan-winter用作零元量子信息传输中的资源。⇝激励问题II:也许合适的(简单,真正)的量子游戏可以反驳Tsirelson-Connes?
我们研究在图表上发挥的无限持续时间的确定性游戏,并专注于定量目标的策略复杂性。此类游戏众所周知,可以在有限图上接受最佳的无内存策略,但通常需要无限图表的无限内存策略。,我们为无限图的平均值和总收益目标的策略复杂性提供了新的下层和上限,重点是在阶梯式策略(有时称为马尔可夫策略)是否足以实施获胜策略。尤其是,我们表明,在有限的分支领域,Lim SUP Mean-Payoff的三种变体和总计目标允许取胜策略,这些策略要么基于步骤计数器或步骤计数器以及额外的内存。相反,我们表明,对于某些Lim Inf总计目标,诉诸步骤计数器的策略和有限的内存还不够。对于步骤持续策略,这将所有经典定量目标的情况都定为Borel层次结构的第二层。
我很高兴为这本出色而及时的书编写前言。游戏长期以来一直被视为人工智能(AI)方法的理想测试床,并且也已成为越来越重要的应用领域。游戏AI是一个广阔的领域,涵盖了从为GO或Starcraft等艰难游戏制作超人AI的挑战到诸如自动化一代新颖游戏之类的创意应用程序。游戏AI与AI本身一样古老,但是在过去的十年中,该领域的扩展和充实视频游戏的扩展和丰富了,现在占该地区所有已发表工作的50%以上,并使我们能够应对具有巨大的商业,经济,经济,经济,经济,经济和Scien-ticien-ticien-ticiac-ticiac-ticiac-ticiac-ticiac-ticiac-ticien-tice。2005年发生的研究输出激增,与我与Graham Kendall共同主持的第一次IEEE计算智能和游戏(会议)(会议)和第一次AAAI AIDERCORENCE(数字娱乐中的人工智能)。从那以后,这个丰富的研究领域得到了更加探索和更好地理解。游戏AI社区开创了许多研究的大部分研究,这些研究正在变得(或即将成为)更多主流AI,例如Monte Carlo Tree搜索,程序内容生成,基于屏幕截图的游戏以及自动化游戏设计。在过去的十年中,深度学习的进步对许多困难问题产生了深远而跨性的影响,包括语音识别,机器翻译,自然语言理解和计算机视觉。因此,现在可以在广泛的感知和识别任务中实现人类竞争性绩效。现在,这些系统中的许多系统都可以通过一系列所谓的认知服务提供给程序。最近,深厚的强化学习在许多困难的挑战中取得了突破性的成功,包括GO和学习直接从屏幕截图(从像素玩游戏)中玩游戏的惊人壮举。令人着迷的是,当我们偶然发现人类水平的智能中,这对游戏意味着什么