[7] O. Vinyals、I. Babuschkin、W. M. Czarnecki 等人。, “使用多智能体强化学习在星际争霸 II 中达到大师级水平”,《自然》,
发表了深Q-Networks(DQN)[Mnih等。,2013年],从其人工智能(AI)冬季唤醒了增强学习(RL),这表明一般基于神经网络的算法可以在一系列复杂的任务中实现专家级的性能。在后来的几年中,深度神经网络的RL导致特工在Go Silver等人中击败了专业人士。[2017],Dota 2 Berner等。[2019],Starcraft 2 [Vinyals等。 ,2019年]以及更多。 因此,在学术界和行业内,对RL研究的公共利益最近都在显着增长。 同时,Openai Gym [Brockman等。 ,2016年]成为第一个广泛采用的普通API。 体育馆是健身房的维护叉子,带来了许多改进和API更新,以使其继续使用开源RL研究。[2019],Starcraft 2 [Vinyals等。,2019年]以及更多。因此,在学术界和行业内,对RL研究的公共利益最近都在显着增长。同时,Openai Gym [Brockman等。,2016年]成为第一个广泛采用的普通API。体育馆是健身房的维护叉子,带来了许多改进和API更新,以使其继续使用开源RL研究。
最近,在使计算机能够像我们一样理解语言方面也取得了重大突破。自然语言处理 (NLP) 与表征学习和深度学习相结合,取得了突飞猛进的成果,表明这些技术可以在许多 NLP 任务中取得最先进的结果,例如语言建模 [Jozefowicz et al.,2016]、问答 [Seo et al.,2017]、解析 [Vinyals et al.,2014] 等等。2017 年,Transformer 模型 [Vaswani et al.,2017] 的推出带来了里程碑式的突破。该序列到序列模型利用了注意力机制,适合并行化,并引入了位置编码等技术,与之前利用
尽管成功地将深入学习(RL)应用于现实世界中的问题(Mnih等人,2015年; Berner等。,2019年; Vinyals等。,2019年; Fawzi等。,2022; Bellemare等。,2020),越来越多的证据表明训练这些网络时会引起挑战和病理(Ostrovski等人。,2021; Kumar等。,2021a; Lyle等。,2022; Graesser等。,2022; Nikishin等。,2022; Sokar等。,2023; Ceron等。,2023)。特别是,已经表明,深度RL药物不足以利用网络的参数:Kumar等人。(2021a)证明存在隐式未参数化,Sokar等人。(2023)表明,训练期间有大量神经元和Graesser等。(2022)表明,稀疏训练方法可以使用很小的原始网络参数保持性能。
自然语言处理及其应用的社会影响在 NLP 社区中受到越来越多的关注(例如 Hovy 和 Spruit,2016 年),其中大型语言模型 (LLM) 成为近期的主要目标之一(例如 Bender 等人,2021 年;Bommasani 等人,2021 年;Weidinger 等人,2021 年)。本文探讨了在设计和发布对话式 AI (ConvAI) 模型时需要考虑的事项。我们专注于神经对话响应生成模型,这些模型在开放域对话数据上训练,缺乏特定领域的任务公式,而是旨在自由而引人入胜地谈论各种主题。这些模型通常在流行的编码器-解码器范式中训练,该范式由 Vinyals 和 Le(2015 年);Shang 等人(2015 年);Serban 等人首次为此任务引入。 (2016 年)。我们将在此范式中训练的对话模型称为端到端 (E2E) 系统,因为它们学习输入和输出之间的隐藏映射,而无需临时语义表示。在此范式中训练的 E2E ConvAI 模型的一个重要优点是它们可以
类似于Alphastar [3]中采用的方法,这项研究强调了实时适应性和决策。尽管取得了重大进步,但挑战仍在处理高维输入,设计有效的奖励系统以及在动态场景中确保稳健的性能[4]。本研究通过实施一个模块化框架来解决这些问题,该框架将有效的数据预处理,可扩展体系结构和迭代培训策略集成在一起。2。文献调查加强学习(RL)已确立自己的强大方法,用于开发能够在动态和高维环境中运行的智能代理。其在多人游戏中的应用引起了重大的研究兴趣,从而在自适应策略和强大的决策框架方面取得了进步。Togelius和Yannakakis(2017)强调了深度强化学习(DRL)对通用视频游戏AI的潜力,强调了环境界面的重要性,在这些界面中,代理可以感知国家,采取行动并根据反馈来优化决策。这种方法已被证明有效地开发了能够响应复杂游戏机制的适应性代理。同样,Vinyals等人。(2019)展示了DRL在Starcraft II中的功能,在那里,代理商学会了通过广泛的
I would like to thank all the past and present members of the PSI lab and the Machine Learning group at U of T, especially Babak Alipanahi, Andrew Delong, Christopher Srinivasa, Jimmy Ba, Hannes Bretschneider, Alice Gao, Hui Xiong, Leo Lee, Michael Leung, and Oren Kraus for sharing ideas and collaborating with me.在我的博士学位期间,我在Google上做了两次Intenrship,这对我来说都是一次很棒的学习经历。我要感谢Google Brain Team和Google DeepMind团队的所有成员,尤其是Oriol Vinyals,Jon Shlens,Navdeep Jaitly,Ian Goodfellow,Ilya Sutskever,Timothy Lillicrap,Ali Eslicrap,Ali Eslami,Sam Bowman,Sam Sam Bowman和Jon Gauthier。我特别要感谢Alireza Moghaddamjoo和Hamid Sheikhzadeh Nadjar启发我在伊朗阿米尔卡比尔技术大学的本科生期间从事学术研究并与我合作。我很高兴与许多好朋友一起度过博士学位。尤其要感谢Sadegh Jalali,Aynaz Vatankhah,Masoud Barekatain,Amin Heidari,Weria Havary-Nassab,David Jorjani,Parisa Zareapour,Ehsan Shojaei,Siavash Fazeli和Mohammad norououzi。我借此机会特别感谢Nasrin Tehrani和Hamid Emami。,由于过去几年的持续支持,我在加拿大感到家。当然,我最深切的感激和爱属于我的父母,纳斯林和哈桑,
游戏长期以来一直是人工智能研究的基准和试验台。近年来,随着人工智能算法的发展和计算能力的提升,人工智能系统在围棋[Silver et al. ,2017]、星际争霸[Vinyals et al. ,2019]和德州扑克[Zhao et al. ,2022]等许多游戏中都取得了超越人类的表现。这些游戏在世界各地举办的季节性和年度活动中都很受欢迎。这种受欢迎程度促使学术界投入精力并开发新算法来解决它们。麻将在世界各地都很流行,尤其是在中国,并且有很多地区变体。由于其不完全信息和多目标性质,它对人工智能算法提出了挑战,但却被人工智能研究界忽视了。为了促进人工智能研究和探索人工智能在麻将中的应用,我们在 IJCAI 举办了三场麻将人工智能竞赛。来自学术界和工业界的数十支团队参与了比赛,他们运用各种算法来构建自己的代理。我们每年都会组织研讨会,邀请顶尖团队进行口头报告,分享他们的方法。比赛结果和他们的报告表明,基于深度学习的现代人工智能算法在这款游戏上具有巨大的潜力,并且优于启发式方法。然而,为了进一步提高人工智能代理的性能,仍有一些悬而未决的问题需要解决。我们希望我们在比赛中的经验能够促进对麻将等复杂现实世界游戏的进一步人工智能研究。
近年来,人工智能 (AI) 击败了世界上最好的人类围棋选手 (Silver 等人2017),成功识别物体的能力超过了普通人 (He 等人2015),并在一场复杂的战略在线游戏中击败了世界上最好的职业玩家 (Vinyals 等人2019)。如今,可比的人工智能不再仅仅是特殊研究项目的主题——人工智能已经通过帮助我们诊断疾病 (Kourou 等人2015) 或控制自然灾害 (Pourghasemi 等人2020) 对我们的生活产生了至关重要的影响。由于人工智能的变革潜力得到广泛认可,组织已经开始在各种业务功能中采用人工智能,以提高效率和效力(例如,Forbes Insights 2018;Bean 2019)。然而,如何管理这项新技术以充分发挥其潜力以及可能出现的潜在后果仍然存在很大的不确定性(Rzepka 和 Berger 2018;Rai 等人2019)。随着机器学习 (ML) 成为现代基于人工智能的信息系统 (IS) 的主要驱动力,管理人工智能的不确定性进一步加剧:ML 标志着一种替代编程范式,允许从数据中获取 IS 功能,而不是让人类明确地将其解决方案转化为代码(Samuel 1959)。利用数据和机器学习算法的人工智能通过从数据中得出模式来智能地行事,然后将其应用于新数据以执行操作 (Bishop 2006)。由此产生的解决方案设计移交给数据驱动算法以及出现的技术特殊性使得我们有必要重新审视我们现有的关于如何成功管理 IS 的知识。