这段对话来自 2014 年电影《机械姬》的早期场景,其中 Nathan 邀请 Caleb 判断 Nathan 是否成功创造了人工智能。1 强大的通用人工智能的成就长期以来一直吸引着我们的想象力,不仅因为它令人兴奋和担忧的可能性,还因为它为人类带来了一个新的未知时代。Stuart Russell 在 2021 年 BBC Reith 讲座“与人工智能共存”的开幕式上表示,“通用人工智能的最终出现 [将是] 人类历史上最大的事件。” 2 在过去十年中,一系列令人印象深刻的成果引起了公众对强大人工智能可能性的广泛关注。在机器视觉方面,研究人员展示了在某些情况下可以像人类一样甚至比人类更好地识别物体的系统。然后是游戏。复杂的策略游戏长期以来一直与高级智能联系在一起,因此当人工智能系统在国际象棋、雅达利游戏、围棋、将棋、星际争霸和 Dota 中击败最优秀的人类玩家时,全世界都注意到了。这不仅仅是人工智能击败了人类(尽管这在第一次发生时令人震惊),而是他们如何做到这一点的不断进步:最初是通过向人类专家学习,然后是自我学习,然后是从头开始自学游戏原理,最终产生了可以学习、玩游戏并获胜的单一系统
游戏长期以来一直是人工智能研究的基准和试验台。近年来,随着人工智能算法的发展和计算能力的提升,人工智能系统在围棋[Silver et al. ,2017]、星际争霸[Vinyals et al. ,2019]和德州扑克[Zhao et al. ,2022]等许多游戏中都取得了超越人类的表现。这些游戏在世界各地举办的季节性和年度活动中都很受欢迎。这种受欢迎程度促使学术界投入精力并开发新算法来解决它们。麻将在世界各地都很流行,尤其是在中国,并且有很多地区变体。由于其不完全信息和多目标性质,它对人工智能算法提出了挑战,但却被人工智能研究界忽视了。为了促进人工智能研究和探索人工智能在麻将中的应用,我们在 IJCAI 举办了三场麻将人工智能竞赛。来自学术界和工业界的数十支团队参与了比赛,他们运用各种算法来构建自己的代理。我们每年都会组织研讨会,邀请顶尖团队进行口头报告,分享他们的方法。比赛结果和他们的报告表明,基于深度学习的现代人工智能算法在这款游戏上具有巨大的潜力,并且优于启发式方法。然而,为了进一步提高人工智能代理的性能,仍有一些悬而未决的问题需要解决。我们希望我们在比赛中的经验能够促进对麻将等复杂现实世界游戏的进一步人工智能研究。
引言:在过去的几十年里,机器学习从针对简单分类任务的(无)监督学习算法 [1-3] 发展到用于下围棋 [6] 和《星际争霸 II》[7] 的深度学习算法 [4,5]。通过使用标记数据进行调整,监督学习可以得到训练有素的分类或预测模型。然而,现实世界中的大多数数据都是未标记的,因此标记成本在化学/生物实验、工业破坏性测试等方面至关重要 [8,9]。与此同时,机器学习协议已经展示了其完成量子任务和研究量子系统特性的能力 [10-15]。这些协议已经应用于与量子信息检索相关的量子计量领域,利用强化学习 (RL) [ 16 ] 来控制测量过程的某些方面 [ 17 , 18 ]。我们还可以在科学文献 [ 19 ] 中找到用于测量控制的 RL 的量子版本 [ 20 , 21 ]。量子信息检索的关键问题是设计一个最优计划,使测量成本最小化,同时在没有明确定义奖励的情况下提取相关信息用于进一步的任务。主动学习 (AL) 基于这样一个假设:在一小组标记样本上训练的模型的表现可以与在所有样本都已标记的数据集中训练的模型一样好 [ 22 , 23 ]。因此,该框架非常适合解决上述关键信息问题的必要要求。简而言之,AL 考虑了标记成本,即测量造成的保真度损失。它分析最具信息量的模式(量子态),以提出保证最大知识增益的最少数量的标记(测量)。最近有研究建议将 AL 应用于量子信息 [ 24 ],采用 AL 的定义如下
有效的探索对于在复杂的协调任务中发现多智能体强化学习 (MARL) 的最优策略至关重要。现有的方法主要利用内在奖励来实现承诺性探索,或者使用基于角色的学习来分解联合动作空间,而不是直接在整个动作观察空间中进行集体搜索。然而,它们在获取特定的联合动作序列以在长期任务中达到成功状态时经常面临挑战。为了解决这一限制,我们提出了想象、初始化和探索 (IIE),这是一种新颖的方法,为复杂场景中的高效多智能体探索提供了一种有前途的解决方案。IIE 采用变换器模型来想象智能体如何达到可以影响彼此转换函数的临界状态。然后,我们在探索阶段之前使用模拟器初始化此状态下的环境。我们将想象表述为序列建模问题,其中状态、观察、提示、动作和奖励是自回归预测的。该提示由剩余时间步长、剩余返回值、影响力值和一次性演示组成,用于指定期望状态和轨迹并指导动作生成。通过在关键状态下初始化智能体,IIE 显著提高了发现潜在重要且未被充分探索区域的可能性。尽管方法简单,但实证结果表明,我们的方法在星际争霸多智能体挑战赛 (SMAC) 和 SMACv2 环境中的表现优于多智能体探索基线。尤其值得一提的是,与其他生成方法(例如 CVAE-GAN 和扩散模型)相比,IIE 在稀疏奖励 SMAC 任务中表现出色,并且在初始化状态下生成了更有效的课程。
1 Zhiding Yang A Hybrid Approach for Wave Height Estimation from Rain-Contaminated Radar Images Based on Segmentation and Iterative Dehazing 2 Wanglong Lu TextDoctor: Unified Document Image Inpainting via Patch Pyramid Diffusion Models 3 Sachithra H Atapattu Enhancing the Region of Attraction of a Multi-Rotor UAV Using Neural Network-Based iLQR Control 4 Zahra Jafari A Novel Method for Estimation of Sea-Surface Wind Speed from SAR Imagery 5 Jesse Chen An Evaluation of the Effect of Seasonal Evolution on GNSS Reflectometry Based Sea Ice Classification Using Random Forest Classifiers 6 Manish Patel Optimization-Based Design and Reliability Assessment of a Hybrid Energy System for Natuashish, Labrador 7 Xin Qiao Ocean Surface Wind Speed Estimation From GNSS-R Data Using CNN-Transformer Network 8 Afzal Ahmed A对Windows 11和Ubuntu上媒体玩家功耗的比较分析24.04.1 9 Fatemeh Kafrashi设计以及浮动太阳能的反渗透饮用水系统Kish Island 10 Syed Nafiz Imtiaz设计和Newfoundland Stephenville H2项目的500 MW Winderf Project Syed Nafiz Imtiaz设计和模拟。23 Sondos Omar陡坡 - 修改深神经网络,以减轻消失的梯度问题24 ASAD MEHMOOD HASSAN设计和分析Lahore模型镇房屋的光伏系统的分析,使用Homer Pro。11 Benjamin f Stanley搜索订购星际争霸订单优化的订购12 yi li改进了PCS从X频段雷达数据中从X频段雷达数据中检索的PCS算法13 RUSLAN MASINJILA对象操纵使用多模式,基于触觉的感应和使用Ahsan Mustaf for Aduning大型语言15 Khan khan khan khan khan khan khan khan khan khaan khaan khaan khaan khaan khaan khaan khaan基于ARM的CPU 16 RIDWANULLAH ABDULKAREEM FPGA基于GNSS-R整合的海洋监测的实时信号处理17 Samarasimha Reddy Chittamuru机器基于机器学习的功率预测亨利·拉尔森(Henry Larsen Thilakanayake Generative Adversarial Network Based Synthetic Radar Image Generation Method for Automotive Perception Datasets 20 Nirasha Herath Real-Time Video Super-Resolution Using Generative Adversarial Networks 21 Masoud Torabi Enhanced Radar Cross Section Modeling for Ocean Surface 22 Nnaemeka Nwauzor Dynamic Simulation of Solar Energy System for A Shop in Nigeria Providing Community Cellphone Charging Service.