程序化策略的综合需要在计算机程序的大型不可微空间中进行搜索。当前的搜索算法使用自对弈方法来指导搜索。这些方法的问题在于,指导函数通常提供的搜索信号较弱。这是因为自对弈函数仅衡量程序相对于其他程序的表现。因此,虽然对失败程序的微小更改可能不会将其转变为获胜程序,但这种更改可能代表着朝着获胜程序迈出的一步。在本文中,我们引入了一种双层搜索算法,该算法同时在程序空间和状态特征空间中进行搜索。特征空间中的每次搜索迭代都会定义程序空间中的搜索试图实现的一组目标特征(即,在遵循程序中编码的策略时观察到的特征)。我们假设自对弈函数和基于特征的函数的组合为综合提供了更强的搜索信号。虽然这两个函数都用于指导程序空间中的搜索,但自对弈函数用于指导特征空间中的搜索,以便选择更有可能导致获胜程序的目标特征。我们在实时战略游戏 MicroRTS 中评估了我们的双层算法。我们的结果表明,双层搜索综合了比仅在程序空间中搜索的方法更强大的策略。此外,我们的方法综合的策略在模拟锦标赛中获得了最高的获胜率,其中包括来自最近两次 MicroRTS 比赛的最佳代理。
AI vs AI(聊天GPT)云知识库 在AlphaGo对战李世石之前,谷歌DeepMind团队先用人类近3000万步棋训练了“AlphaGo”神经网络,让它学会如何预测人类职业棋手的落法。再让AlphaGo与自己对弈,从而创造出一本庞大的新棋谱。
基于搜索的系统已被证明可用于零和博弈中的规划。然而,基于搜索的方法具有重要的缺点。首先,搜索算法的决策大多是不可解释的,这在需要可预测性和信任的领域(例如商业游戏)中是个问题。其次,基于搜索的算法的计算复杂性可能会限制其适用性,特别是在资源与其他任务(例如图形渲染)共享的环境中。在这项工作中,我们介绍了一种用于合成实时战略 (RTS) 游戏的程序化策略的系统。与搜索算法相比,程序化策略更容易解释,并且一旦程序被合成,往往会很高效。我们的系统使用一种简化领域特定语言 (DSL) 的新算法和一种通过自对弈合成程序的本地搜索算法。我们进行了一项用户研究,招募了四名专业程序员来开发 µ RTS(一款极简 RTS 游戏)的编程策略。结果表明,通过我们的方法合成的程序可以超越搜索算法,并且可以与程序员编写的程序相媲美。
自我对弈是马尔可夫博弈中构建解决方案的常见范例,可以在协作环境中产生最优策略。然而,这些策略通常采用高度专业化的惯例,这使得与新伙伴一起玩变得困难。为了解决这个问题,最近的方法依赖于将对称性和惯例意识编码到策略训练中,但这需要很强的环境假设,并且会使策略训练复杂化。因此,我们建议将惯例的学习转移到信念空间。具体来说,我们提出了一个信念学习模型,该模型可以在训练时保持对未见过的策略推出的信念,从而可以在测试时解码和适应新的惯例。我们展示了如何利用这个模型在各种策略池中搜索和训练最佳响应,以大大改善临时团队合作。我们还展示了我们的设置如何促进细微代理惯例的可解释性和可解释性。
摘要 — 近年来,深度强化学习 (DRL) 在各种完全和不完全信息游戏中取得了重大突破。在这些游戏中,斗地主是中国流行的纸牌游戏,由于信息不完整、状态空间大、协作元素多以及每回合可能的动作数量庞大,因此非常具有挑战性。最近,一种名为 DouZero 的斗地主人工智能系统被提出。DouZero 使用传统蒙特卡洛方法、深度神经网络和自我对弈程序进行训练,无需抽象人类先验知识,其表现优于所有现有的斗地主人工智能程序。在这项工作中,我们建议通过在 DouZero 中引入对手建模来增强 DouZero。此外,我们提出了一种新颖的教练网络,以进一步提升 DouZero 的性能并加速其训练过程。通过将上述两种技术融入到斗地主AI系统中,斗地主AI系统取得了更好的性能,在包括斗地主在内的400多个AI代理中名列Botzone排行榜榜首。索引术语 — 斗地主,强化学习,蒙特卡洛方法,对手建模,教练网络
我们描述了一类称为决策导向对话的任务,在这些任务中,大型语言模型 (LM) 等 AI 助手必须通过自然语言与一个或多个人类合作,以帮助他们做出复杂的决策。我们将用户每天面临的决策的三个领域形式化:(1)选择会议论文的审稿人任务,(2)规划某个城市的多步骤行程,(3)为朋友团体协商旅行计划。在每种情况下,AI 助手和用户都具有不同的能力,他们必须将这些能力结合起来才能做出最佳决策:助手可以访问和处理大量信息,而用户则具有系统外部的偏好和约束。对于每个任务,我们构建了一个对话环境,代理会根据他们做出的最终决策的质量获得奖励。我们在自我对弈和与人类合作中对 LM 进行了评估,发现它们与人类助手相比存在不足,尽管对话时间较长,但获得的奖励要低得多。我们强调了模型在决策导向对话中面临的许多挑战,从目标导向行为到推理和优化,并将我们的环境发布为未来工作的试验台。
摘要 — 尽管在游戏人工智能(AI)开发方面取得了重大突破,但麻将作为一种流行的多人不完美信息游戏仍然颇具挑战性。与围棋和德州扑克等游戏相比,麻将具有更多的不可见信息、不固定的游戏顺序和复杂的计分系统,导致强化学习过程中的奖励信号具有很高的随机性和方差。本文通过将奖励方差减少(RVR)引入到一种新的自对弈深度强化学习算法中,提出了一种麻将人工智能。RVR通过相对价值网络处理不可见性,该网络利用全局信息引导模型在具有完美信息的预言机下收敛到最优策略。此外,RVR使用预期奖励网络提高了训练稳定性,以适应复杂、动态和高度随机的奖励环境。大量实验结果表明,RVR 显著降低了麻将 AI 训练中的方差,提高了模型性能。经过在一台拥有 8 个 GPU 的服务器上仅三天的自我对战训练,RVR 在 Botzone 平台上击败了 62.5% 的对手。索引术语 — 不完全信息博弈、多智能体学习、强化学习、麻将 AI